news 2026/4/15 9:19:44

无需重新训练即可为语音识别器添加新词

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
无需重新训练即可为语音识别器添加新词

在不重新训练的情况下教语音识别器学习新词

近年来,自动语音识别(ASR)已转向全神经网络模型。连接时序分类(CTC)损失函数因其预测不依赖于先前上下文,从而产生推理延迟低的简单模型,成为端到端ASR的一个有吸引力的选择。与早期使用词典匹配音素和候选词的混合ASR模型不同,全神经模型难以适应生僻词或不熟悉的词。对CTC模型进行新词偏置尤其困难,因为它缺乏上下文:即模型在任何给定时间步的预测都独立于先前时间步的输出,这种相同的预测方案虽然能实现低延迟解码,但也带来了挑战。

对于操作词汇不断变化的ASR应用而言,这是一个问题。例如,当像“Zelenskyy”这样的新名字进入对话时,或者当用户向通讯录添加新名字时。通过包含新词的新数据集重新训练ASR模型来更新大型模型,是耗时且计算密集度极高的方法。

在今年的SLT研讨会上发表的一篇论文中,描述了一种使CTC模型能够正确转录新实体名称而无需重新训练的方法。该方法包含多种技术,用于使模型偏向列表中的名称。这些技术既适用于模型的编码器(将输入转换为向量表示),也适用于其集束搜索解码器(评估候选输出序列)。这些技术可以组合应用,以最大化准确转录的可能性。

在一个包含疾病和药物名称等困难医学术语的数据集上,使用该方法将ASR模型在这些实体上的F1分数从无偏置模型的39%提升至62%。同样,在一个包含欧洲议会录音的公开数据集上,该方法将罕见实体(城市名称、人名等)的识别F1分数从49%提升至80%,且无需重新训练基础ASR模型。

偏置方法

  • 编码器偏置:为了偏置CTC模型的编码器,使用了上下文适配器。该适配器在冻结基础CTC模型权重后进行训练。它以训练样本中的生僻词集作为输入,并学习词的子词单元序列与其音频表示之间的映射关系。该适配器使用编码器中间层表示的加权和作为音频表示,从而对抗CTC模型的条件独立性假设。在推理时,使用上下文适配器嵌入罕见词或词表外(OOV)实体名称列表,在每个音频时间帧,一个注意力模块尝试将名称嵌入与音频表示进行匹配。

  • 解码器偏置:在解码器偏置方面获得了积极结果。所有技术均在推理时直接应用:

    1. 自适应子词增强:在集束搜索解码中,如果一个top-k子词序列以自定义实体列表上的子词开头,则动态提升其概率。
    2. 一元语法增强:通过一个OOV/BOOST类将列表中的词添加到外部语言模型来提升其概率,从而在推理期间保持语言模型不变。
    3. 基于音素距离的重新评分:利用中间层网络的输出(音素),在它们与CTC模型输出之间进行强制对齐。计算此对齐的成本,并用于重新对n-best列表进行评分。
    4. 基于发音的词典查找:对于罕见词和OOV词,音素预测假设比子词预测更准确。因此,使用强制对齐来识别音素序列中的词边界。如果与一个词对应的音素序列与词典中某个词的发音完全匹配,则将该词替换为词典实体。
    5. 字素到字素(G2G)技术:字素是书面文本的最小有意义单位。使用一个将单个字素映射到其多种可能发音(即音素)的表格,以解析实体名称列表上词的替代发音。

联合模型

最后,提出了一个联合模型,结合了上述编码器和解码器偏置技术。正如预期的那样,这些技术是互补的,并产生了叠加的增益。从概念上讲,编码器偏置方法有助于为其复制的罕见子词生成更高的概率分数,这有助于防止罕见子词在子词图的集束搜索解码过程中被剪枝。而解码器偏置技术则进一步提升了罕见词和OOV词的候选路径在图中排名靠前的可能性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/7 17:03:34

终端渲染天花板:技术诗《永恒工具》

基于本质铸代码,囹圄效用展智慧。 笔记模板由python脚本于2026-01-27 12:38:48创建,本篇笔记适合终端渲染学习的coder翻阅。 学习的细节是欢悦的历程 博客的核心价值:在于输出思考与经验,而不仅仅是知识的简单复述。 Python官网&a…

作者头像 李华
网站建设 2026/4/12 13:12:05

springboot的高校安全治安管理系统-vue

目录 系统概述技术架构核心功能模块创新点应用价值 开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 系统概述 基于SpringBoot和Vue的高校安全治安管理系统是一个现代化、模块化的平台,旨在提升校园安全管理效率。系…

作者头像 李华
网站建设 2026/4/13 5:13:08

高频动效引发内存暴涨?

你可能遇到过这种场景: 测试同事说:“我就一直点按钮,点了五分钟,游戏内存从 800M 涨到 1.4G,然后啪一下闪退了。” 你一看代码: 没有疯狂 new 没有静态 List 疯狂堆对象 各种事件也都解绑了 GC 跑起来也正常 更离谱的是:只要人不操作,内存就相当稳定,一猛点就嗖嗖涨。…

作者头像 李华
网站建设 2026/4/8 13:23:55

mfc80d.dll文件丢失找不到 免费下载方法

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华
网站建设 2026/4/4 2:01:35

亲测好用!继续教育10款AI论文工具测评与推荐

亲测好用!继续教育10款AI论文工具测评与推荐 2026年学术写作工具测评:为何值得一看? 在当前快节奏的学术环境中,论文写作已成为科研工作者必须面对的核心挑战。无论是选题构思、文献检索,还是内容撰写与格式规范&…

作者头像 李华