news 2026/6/18 9:59:48

如何构建高表现力的语音合成模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何构建高表现力的语音合成模型

六月,Alexa宣布了一项名为“阅读伙伴”的新功能,它通过让孩子与Alexa轮流朗读来帮助他们成长为自信的读者,同时Alexa会给予鼓励和支持。为了使这一体验更具吸引力和趣味性,某中心的文本转语音团队开发了一版Alexa语音,该语音比标准的中性语速更慢,表现力更丰富。

由于表现力强的语音比中性语音更具可变性,因此表现力语音模型容易出现稳定性问题,例如突然停顿或生硬的语调变化。为了解决这个问题,模型开发者可能会收集代表特定风格的数据,但这成本高昂且耗时。他们也可能部署一个不基于“注意力机制”的模型,即模型在处理当前词语时,不特别关注先前输入的特定词语。然而,无注意力模型通常更复杂,部署需要更多精力,并且常常会导致额外的延迟。目标是在不增加数据收集或模型部署负担的情况下,开发出高表现力的语音。这通过两种方式实现:开发新的数据预处理方法,以及提供适应表现力语音的模型。此外,还与用户体验研究人员在模型构建前后进行了密切合作。

为了确定收集何种训练数据,在项目开始前进行了一项用户体验研究,让儿童及其父母聆听一个合成叙述性段落的基线语音。结果表明,较慢的语速和更强的表现力将改善客户体验。在录制训练数据时,主动控制了语速和表现力水平。在构建模型后,进行了第二次用户体验研究,发现在故事朗读方面,受试者对新语音的偏好是标准Alexa语音的两倍。

数据整理
高表现力语音模型的不稳定性是由于“极端韵律”造成的,这在儿童读物的朗读中很常见。韵律是语音的节奏、重音、旋律、时长和响度;成年人在给幼儿朗读时,经常会夸张地改变语调,大幅度改变音量,并延长或缩短词语的持续时间,以传达含义并吸引听者的注意力。

虽然希望数据集能捕捉到广泛的表现力范围,但有些话语可能过于极端。开发了一种新的训练数据预处理方法,可以剔除此类异常值。对于每个话语,会计算“说话人嵌入”——这是一个向量表示,用于捕捉说话人声音的韵律特征。如果某个说话人嵌入与平均嵌入之间的距离过大,就会将该话语从训练集中丢弃。

接下来,从每个语音样本中,移除那些无法从音频自动转录为文本的片段。由于大多数此类片段是无声停顿,移除它们可以防止模型在词语之间停顿时间过长。

建模
在建模方面,使用正则化和数据增强来提高稳定性。基于神经网络的文本转语音系统由两个部分组成:1)梅尔频谱图生成器 和 2)声码器。梅尔频谱图生成器将一系列音素(最短的语音单位)作为输入,并输出信号在可听频率上的幅度。它负责语音的韵律。声码器将相位信息添加到梅尔频谱图中,以创建合成语音信号。没有相位信息,语音听起来会很机械。团队先前开发的通用声码器在此应用中效果良好。

在训练期间,对梅尔频谱图生成器的权重应用L2惩罚;即,偏离平均值的权重在训练期间会受到惩罚,惩罚的大小与偏差的平方成正比。这是一种正则化形式,可以减少对录音数据的过拟合。

还使用了数据增强来改善输出语音。将中性录音添加到训练录音中,为模型提供了不那么极端的韵律轨迹供其学习。

作为额外的输入,对于两种类型的训练数据,都为模型提供了一个风格标识符,这有助于模型学会区分讲故事风格与Alexa提供的其他风格。录音、处理和正则化的结合使模型变得稳定。

评估
为了评估“阅读伙伴”语音,邀请了成年众包测试者选择他们更喜欢哪种语音为儿童朗读故事。以标准Alexa语音作为基线。测试了100个平均时长约15秒的短段落,每个段落由不同的众包测试者评估30次。测试者是英语母语者;对测试者选择没有施加其他限制。

结果表明,“阅读伙伴”语音以较大优势胜出(61.16%对比基线的30.46%,P<.001),特别是考虑到众包评估的噪音性质以及没有丢弃任何收到的数据。

感谢Marco Nicolis和Arnaud Joly对此研究的贡献。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 3:41:06

微信小程序的的短视频制作点播系统app

目录已开发项目效果实现截图关于博主开发技术介绍核心代码参考示例1.建立用户稀疏矩阵&#xff0c;用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;已开发…

作者头像 李华
网站建设 2026/6/4 13:47:42

Vercel边缘部署:将轻量模型推送到全球CDN节点

Vercel边缘部署&#xff1a;将轻量模型推送到全球CDN节点 在今天的AI应用开发中&#xff0c;用户早已不再容忍“转圈等待”。无论是智能客服的即时回复、移动端助手的快速响应&#xff0c;还是全球化SaaS平台的稳定接入&#xff0c;低延迟推理已成为用户体验的核心指标。然而&a…

作者头像 李华
网站建设 2026/6/17 23:20:28

钉钉审批流集成:适用于档案管理部门的数字化审批修复流程

钉钉审批流集成&#xff1a;适用于档案管理部门的数字化审批修复流程 在各地档案馆、城建局和博物馆持续推进历史资料数字化的今天&#xff0c;一个普遍而棘手的问题浮出水面&#xff1a;大量黑白老照片因年代久远严重老化——褪色、划痕、模糊甚至局部缺失。这些承载着城市记忆…

作者头像 李华
网站建设 2026/6/11 3:29:35

Security Disclosure漏洞披露流程:负责任地报告安全隐患

Security Disclosure漏洞披露流程&#xff1a;负责任地报告安全隐患 在AI基础设施日益成为数字世界核心支柱的今天&#xff0c;一个被忽视的安全漏洞可能引发连锁反应——从模型权重被篡改、训练数据遭窃取&#xff0c;到整个推理服务被远程控制。尤其是像ms-swift这样集成了模…

作者头像 李华
网站建设 2026/6/13 16:03:31

C调用Python脚本崩溃怎么办?:3种高效定位问题方法全公开

第一章&#xff1a;C调用Python脚本崩溃问题概述在混合编程场景中&#xff0c;C语言调用Python脚本是一种常见的需求&#xff0c;尤其在性能敏感模块中嵌入灵活的脚本逻辑时。然而&#xff0c;这种跨语言调用容易因环境配置、资源管理或API使用不当导致程序崩溃。典型表现包括段…

作者头像 李华
网站建设 2026/6/15 15:10:39

云原生AI架构设计:基于ms-swift的微服务化大模型集群

云原生AI架构设计&#xff1a;基于ms-swift的微服务化大模型集群 在企业纷纷拥抱大模型的今天&#xff0c;一个现实问题摆在面前&#xff1a;如何让千亿参数的“巨无霸”模型既跑得动&#xff0c;又管得住&#xff1f;传统单机训练早已力不从心&#xff0c;而手工部署推理服务的…

作者头像 李华