news 2026/2/15 0:39:05

差分隐私优化端到端语音识别技术

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
差分隐私优化端到端语音识别技术

更好的端到端语音识别差分隐私技术

教师模型集成私有聚合技术相对于标准差分隐私方法,可将词错误率相对降低超过26%。

现代人工智能模型,如图像和语音识别模型,高度依赖数据。虽然有一些公共数据集可用于训练此类模型,但从实时运行系统中收集的用户数据对于实现最先进性能所必需的数据量以及训练与测试条件之间的紧密匹配至关重要。这就引出了如何保护用于训练的用户数据隐私的问题。

差分隐私旨在通过向训练过程中添加随机变化来掩盖训练输入的具体细节,从而防止对模型训练数据构成的推断。在IEEE口语语言技术研讨会上,我们与某中心的同事以及乔治亚理工学院的合作者共同发表了论文《关于端到端语音识别的教师集成学习私有聚合的实验研究》。这是最早比较应用于现代全神经网络自动语音识别模型的差分隐私算法的研究之一。

我们还展示了一种先前未用于ASR的DP算法,可以比常见的基线方法取得好得多的结果。在我们的实验中,在特定的DP约束下,我们的方法相对于基线将词错误率降低了26%以上。

差分隐私

如何防止恶意行为者通过观察或探测AI模型,或者在最坏的情况下通过拆卸模型以提取系统内部参数,来推断有关促成该模型创建的训练数据的细节?对于语音识别系统,这类隐私攻击可能试图推断用于训练的用户身份或输入内容本身。

差分隐私的答案是将噪声注入训练过程,以模糊输入-输出关系与特定训练示例之间的推理路径。注入的噪声量与实现的隐私保证之间存在内在关联,而添加噪声通常会降低模型准确性。

不同的DP方法有不同的权衡,挑战在于以既能隐藏单个数据项信息又能最小化准确性下降的方式注入噪声。隐私保证由一个参数ε量化,该参数描述了我们对于两个仅在单个训练数据项上不同的模型无法被区分的确定程度。ε = 0 表示最大的差分隐私保护,ε值越正表示差分隐私保护越少。实现更小的ε值需要注入更多噪声。

随机梯度下降是训练神经模型的常用方法;梯度是针对特定训练批次设计的、旨在提高准确性的模型参数调整。为神经模型实现DP的一种标准且直观的方法是为梯度添加噪声。然而,当应用于ASR时,这种SGD的修改版本会导致显著的性能损失。我们的比较研究发现,在严格的隐私预算下,词错误率增加了三倍多。

用于ASR的PATE

为了缓解这种性能下降,我们采用了名为教师模型集成私有聚合的框架,该框架最初被证明在图像分类任务上有效。其思想是使用师生训练,也称为知识蒸馏,将训练数据与操作模型解耦。

敏感数据被分割,并从每个分区训练一个单独的教师模型。通过对教师模型的预测进行加权平均来聚合它们,然后标记一个非敏感的训练集,操作模型在该数据集上进行训练。

通过在对教师模型的预测进行平均之前添加拉普拉斯噪声或高斯噪声来实现差分隐私。平均减轻了由噪声重标记导致的性能下降:平均后,学生模型仍然可以应用正确的标签,但攻击者无法使用它来识别训练数据的特征。

我们研究了几种流行的神经端到端ASR架构,并考虑了敏感数据和非敏感数据具有相似特征或来自不同类型语音源的训练场景。根据我们的研究,RNN转导器架构是在ASR任务上提供最佳隐私权衡的架构,因此我们在实验中使用了该架构。在标准的LibriSpeech任务上,我们基于PATE的模型的词错误率比未受DP噪声影响的基线RNN-T模型低26.2%至27.5%。

我们还证明了PATE-ASR可以防止使用模型逆向攻击重建训练数据。给定对已训练模型和感兴趣输出的访问权限,这种形式的隐私攻击会找到使给定输出的后验概率最大化的模型输入。在语音识别的情况下,MIA可能重建与假定说出的一串单词相对应的声学输入,可能揭示用于训练的说话者的特征。

下面的频谱图描绘了原始语音片段以及使用针对具有不同级别隐私保护的RNN-T模型的MIA进行的重建。

可以清楚地看到,使用PATE-DP训练的ASR模型有效地向MIA隐藏了此类声学信息,这与没有使用DP训练的模型不同。结果证明了隐私保护ASR模型作为设计更可靠语音服务途径的前景。

致谢:这是某中心科学家与前某中心研究奖项获得者、乔治亚理工学院的Chin-Hui Lee之间的合作成果,并得到了其他科学家的宝贵领导和建议。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/7 13:31:18

坐标转换与投影:解决 WebGIS 的坐标混乱问题

在 WebGIS 开发中,坐标系统不统一是最常见的 “坑”—— 同样的地理位置,在高德地图、百度地图、OpenStreetMap 上的坐标值却完全不同,导致地图要素偏移、定位不准等问题。这背后的核心原因是不同平台采用了不同的坐标系:WGS84&am…

作者头像 李华
网站建设 2026/2/6 8:45:05

PHP大马分析:短小精悍的后门程序

PHP大马分析&#xff1a;短小精悍的后门程序 在一次常规的安全巡检中&#xff0c;WAF&#xff08;Web应用防火墙&#xff09;捕获到一个看似普通的文件上传请求。表面上看只是个简单的PHP脚本&#xff0c;但触发了多条高危规则——这引起了我的警觉。 <?php $password a…

作者头像 李华
网站建设 2026/2/13 0:10:36

CALIPSO激光雷达333米云层数据解析

IndexTTS 2.0&#xff1a;让每个声音都有性格&#xff0c;让每句话都带情绪 你有没有遇到过这种情况&#xff1a;精心剪辑的视频卡在最后一环——配音不贴脸&#xff1f;找真人录音成本高、周期长&#xff0c;用传统AI语音又“机械感”十足&#xff0c;情绪平平&#xff0c;节…

作者头像 李华
网站建设 2026/2/8 7:39:26

Open-AutoGLM邀请码哪里找?3个高成功率渠道+申请模板免费送

第一章&#xff1a;Open-AutoGLM邀请码获取 获取 Open-AutoGLM 的访问权限是使用该开源框架的第一步&#xff0c;目前系统采用邀请码机制控制用户注册&#xff0c;以保障服务稳定性和社区质量。 官方渠道申请 用户可通过 Open-AutoGLM 官方网站提交申请表单&#xff0c;填写真…

作者头像 李华
网站建设 2026/2/5 12:25:59

UTF-8编码与Unicode字符解析

UTF-8编码与Unicode字符解析 你有没有遇到过网页上突然出现一堆“锟斤拷”或“烫烫烫”的尴尬场面&#xff1f;又或者在处理用户提交的昵称时&#xff0c;发现某个 emoji 被替换成了空白方框&#xff1f;这些问题的背后&#xff0c;往往不是程序逻辑出了错&#xff0c;而是字符…

作者头像 李华