news 2026/6/11 0:28:48

语音助手减少不必要澄清提问的技术突破

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
语音助手减少不必要澄清提问的技术突破

减少语音助手不必要的澄清性问题

如果两个人在嘈杂的环境中交谈,一方没有听清或未完全理解对方的意思,自然的反应是请求澄清。语音助手也是如此。为了避免基于不准确或不完整的理解采取可能错误的操作,语音助手会提出后续问题,例如询问设定的计时器是15分钟还是50分钟。

通常,提出此类问题的决定基于机器学习模型的置信度。如果模型预测出多个置信度高的竞争性假设,澄清性问题可以帮助从中做出选择。

然而,对某中心语音助手数据的分析表明,77%的情况下,即使其他备选假设也获得了较高的置信度分数,模型排名第一的预测也是正确的。在这些情况下,目标是减少提出的澄清性问题数量。

在某会议上,展示了一项工作,旨在通过训练一个机器学习模型来判断何时真正需要澄清,从而减少不必要的后续问题。

HypRank 模型

在大多数语音助手中,用户话语的声学信号首先传递给自动语音识别模型,该模型生成多个关于用户所说内容的假设。排名靠前的假设然后传递给自然语言理解模型,该模型识别用户的意图(用户希望执行的操作,例如播放视频)和话语的槽位(意图应作用于的实体,例如视频标题,其值可能是“哈利·波特”)。

在论文中考虑的场景下,由ASR和NLU模型生成的假设会传递给第三个模型,称为HypRank(假设排名器)。HypRank结合了ASR、意图分类和槽位填充的预测及置信度分数,以及上下文信号(例如特定用户启用了哪些技能),以产生不同假设的总体排名。

使用这种方法,有三个可能的歧义来源:ASR分数的相似性、意图分类分数的相似性以及整体HypRank分数的相似性。在传统方案中,这些分数中任何一个足够小的差异都会自动触发澄清性问题。

澄清与否

在新方法中,训练了另一个机器学习模型来决定是否需要提出澄清性问题。除了ASR、NLU或HypRank分数的相似性之外,该模型还考虑另外两个歧义来源:信噪比和被截断的话语。被截断的话语是指以冠词、某些所有格或介词结尾的话语。例如,“Alexa, play ‘Hello’ by” 就是一个被截断的话语。

作为输入,该模型接收排名最高的HypRank假设;任何在其他三项指标上分数足够相似的其他假设;SNR;一个表示该请求是否为重复请求的二元值;以及指示五种歧义来源中哪些适用的二元值。

输入假设的数量可能不同,具体取决于适用的歧义类型。因此,除了排名第一的假设之外,所有其他假设的向量表示被合并形成一个摘要向量,然后与其他输入的向量表示连接起来。连接后的向量传递给分类器,分类器决定是否发出澄清性问题。

实验

据所知,目前没有现有的数据集能提供根据准确性标记的多个ASR和NLU假设。因此,为了训练模型,使用了由某中心同事去年在某研讨会上展示的模型自动注释的数据。

他们的模型是在手动注释的数据和根据客户反馈标记的数据组合上训练的,这些客户在Alexa交互后被特别询问是否对结果满意。使用该模型来标记更多话语,无需人工参与。

由于数据集中的所有样本至少具有一种歧义类型,基线方法是在每种情况下都提出澄清性问题。该方法的假阴性率为零(在必要时从不遗漏澄清性问题),但可能有较高的假阳性率。新方法可能会增加假阴性率,但F1分数的提高意味着它在假阴性和假阳性之间取得了更好的平衡。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 17:19:10

CentOS-WSL完整指南:在Windows上快速部署企业级Linux环境

CentOS-WSL完整指南:在Windows上快速部署企业级Linux环境 【免费下载链接】CentOS-WSL 项目地址: https://gitcode.com/gh_mirrors/ce/CentOS-WSL 想在Windows系统上体验原汁原味的企业级CentOS Linux环境吗?CentOS-WSL项目让你无需虚拟机就能在…

作者头像 李华
网站建设 2026/6/10 0:05:45

从文本到情感化语音:IndexTTS 2.0的Qwen-3驱动情感控制系统揭秘

从文本到情感化语音:IndexTTS 2.0的Qwen-3驱动情感控制系统揭秘 在短视频、虚拟偶像和AI主播席卷内容创作领域的今天,一个越来越尖锐的问题浮出水面:为什么机器合成的声音总是“说得清楚”,却“听不出情绪”?即便音色逼…

作者头像 李华
网站建设 2026/6/4 5:41:57

腾讯会议纪要:会后自动生成IndexTTS 2.0朗读版摘要

腾讯会议纪要:会后自动生成IndexTTS 2.0朗读版摘要 在一场持续两小时的线上会议结束后,如何快速生成一份不仅内容准确、结构清晰,还能“听得进去”的语音摘要?传统方案往往是将文字转成机械朗读的音频,语调平直、节奏拖…

作者头像 李华
网站建设 2026/6/9 22:12:42

本科生论文格式优化:9大Word工具及编辑专业建议汇总

本科生论文格式模板排名:9大word工具编辑推荐 AI工具在论文写作中的优势 Q: AI工具如何帮助本科生完成论文写作? A: 现代AI工具已经深度渗透到学术写作的各个环节,从文献阅读到初稿生成,再到格式调整和查重降重,都能…

作者头像 李华
网站建设 2026/6/10 17:30:41

知乎回答有声化:优质答案通过IndexTTS 2.0变成播客

知乎回答有声化:优质答案通过IndexTTS 2.0变成播客 在内容消费加速“听觉化”的今天,越来越多用户选择用耳朵阅读——通勤路上听公众号文章、睡前收听知识类播客、边做家务边“翻阅”知乎热榜。然而,绝大多数文字内容仍停留在“无声状态”&a…

作者头像 李华