news 2026/6/17 2:09:44

领域数据优于教师知识:NLU模型蒸馏的关键发现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
领域数据优于教师知识:NLU模型蒸馏的关键发现

领域数据优于教师知识:用于蒸馏NLU模型

会议:EMNLP 2022

相关出版物:Knowledge distillation transfer sets and their impact on downstream NLU tasks

知识蒸馏是一种将大型机器学习模型压缩至可管理大小的流行技术,使其适用于语音助手等低延迟应用。在蒸馏过程中,一个轻量级模型(称为学生模型)会在特定数据集(称为迁移集)上接受训练,以模仿源模型(称为教师模型)。迁移集的选择对生成高质量的学生模型至关重要,但如何进行选择远非易事。在自然语言理解应用中,教师模型通常在通用语料库上进行预训练,这可能与用于微调的特定任务语料库不同。这就引出了一个自然的问题:学生模型应该在通用语料库上进行蒸馏以学习高质量的教师预测,还是在更符合微调目标的特定任务语料库上进行蒸馏?

在提交给2022年自然语言处理经验方法会议的论文中,我们探讨了这个问题,并证明仅使用特定任务数据蒸馏的模型在其目标任务上的表现优于那些使用特定任务和通用数据混合进行蒸馏的模型。换句话说,在目标领域数据上进行蒸馏比单纯依赖教师知识能提供更好的性能。

然而,我们证实,即使是在混合数据上进行蒸馏也是有益的,学生模型的表现优于从头开始训练的同等规模模型。我们还研究了在教师模型完成预训练但尚未进行微调时进行蒸馏,这样只有学生模型会进行微调。我们发现,在蒸馏之前先让教师模型适应迁移集(这种成本更高的策略)能产生最佳的学生模型。

蒸馏多样性

在我们的实验中,我们使用通用数据和特定任务数据按三种不同比例混合,从一个大型多语言教师模型中蒸馏出一组多语言学生模型:

  • 比例1:仅通用数据(基线)
  • 比例2:7:3的通用数据与特定任务数据(模拟低资源场景)
  • 比例3:仅特定任务数据

那么,什么是通用数据和特定任务数据?通用数据通常是公开可用的、与任何特定任务无关的非标注数据。在未标注数据上进行模型训练通常涉及自监督学习;在我们的案例中,这意味着遮蔽文本中的单词并训练模型进行填充(遮蔽语言建模)。

特定任务数据是经过标注以指示任务正确执行的数据。在我们的案例中,我们探索了两个下游任务:领域分类和联合意图分类与命名实体识别,我们的特定任务数据也相应进行了标注。

我们在两种类型的测试集(testtail_test)以及四种感兴趣的语言(德语、法语、意大利语和西班牙语)上评估了我们的模型。test集包含完整的测试拆分,而tail_testtest中那些出现频率为三或更低的数据点子集。tail_test集允许我们衡量模型对在训练中罕见数据的泛化能力。

我们研究和评估的两个基线模型和四个实验模型的示意图。

我们所有的实验模型和基线模型都具有相同数量的参数。通用蒸馏基线是通过仅使用通用数据(比例1)蒸馏一个学生模型创建的。直接预训练基线是使用通用数据从头开始预训练,然后在特定任务数据上进行微调。

我们创建了四个蒸馏后的学生编码器,其中两个直接使用比例2和比例3的数据集进行蒸馏。其余两个以相同方式创建,但教师在蒸馏前使用特定任务数据集各进行了一百万步的微调。这使得我们能够对教师适应目标任务的情况进行基准测试。

在评估领域分类和联合意图分类与命名实体识别任务性能时,我们为每个编码器添加了一个相应的解码器。相对于基线,F1分数的变化被用作领域分类的改进指标,语义错误率的变化被用作联合意图分类与命名实体识别的改进指标。

针对通用蒸馏基线的每种蒸馏编码器和每种语言的百分比改进(领域分类任务)。F1分数变化正向表示更好。

联合意图分类与命名实体识别任务的结果。在这种情况下,负向表示更好。

在领域分类任务上,我们的结果表明,当迁移集中包含特定任务数据时,各方面都有改进,其中仅使用特定任务数据带来的改进最大。在联合意图分类与命名实体识别任务中,我们看到了类似的结果,仅使用特定任务数据蒸馏的编码器改进更大。

致谢:我们要感谢论文的共同作者对此工作的贡献。

研究领域

  • 对话式AI
  • 机器学习

标签

  • 知识蒸馏
  • 自然语言理解
  • EMNLP
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 18:22:59

病理IHC抗体原料:从基础筛选到精准诊断的核心引擎

一、什么是IHC抗体原料?为何它在免疫组化技术中具有不可替代的地位?免疫组织化学(Immunohistochemistry, IHC)是病理诊断和生物医学研究中一项 cornerstone 技术,它利用抗原与抗体特异性结合的原理,通过显色…

作者头像 李华
网站建设 2026/6/15 9:31:35

百考通:AI赋能学术创作,开启论文写作新范式

在学术研究与论文写作的漫漫长路上,你是否也曾陷入灵感枯竭的困境?面对繁杂的文献不知如何梳理?为重复率过高而焦虑不已?如今,百考通(https://www.baikaotongai.com)以“安全、专业、权威”为核…

作者头像 李华
网站建设 2026/6/15 4:29:03

HyperWorks HPC并行许可证计费模式优化

HyperWorks HPC并行许可证计费模式优化:企业客户的真正需求与创新路径对于企业客户选择一款能够满足高性能计算需求的软件工具,不仅关乎技术性能,更直接影响到成本控制与业务扩展。以HyperWorks HPC并行为例,当前它的许可证计费模…

作者头像 李华
网站建设 2026/6/15 9:49:28

SQLite3学习笔记6:UPDATE(改)+ DELETE(删)数据(C API)

核心知识点 实现方式:UPDATE 和 DELETE 依然用sqlite3_exec执行,语法和命令行完全一致,无需回调函数(因为不返回查询结果);核心规范: 必须在 SQL 语句中加 WHERE 条件,避免全表修改…

作者头像 李华
网站建设 2026/6/14 1:09:16

HoRain云--IntelliJ IDEA搭建PHP环境全攻略

🎬 HoRain 云小助手:个人主页 ⛺️生活的理想,就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!忍不住分享一下给大家。点击跳转到网站。 目录 ⛳️ 推荐 …

作者头像 李华
网站建设 2026/5/29 19:09:37

一站式解决管理难题,信息化集成方案来袭!

企业信息化集成方案,一站式解决管理难题在当今数字化时代,企业面临着日益复杂的管理挑战。如何实现各部门之间的高效协作、数据的实时共享以及业务流程的自动化,成为了企业发展的关键。而企业信息化集成方案,正是解决这些难题的一…

作者头像 李华