news 2026/4/6 11:57:36

NEFTune:加入噪声的嵌入提升指令微调效果

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NEFTune:加入噪声的嵌入提升指令微调效果

摘要

我们发现,通过一种简单的数据增强方法,可以显著提升语言模型的微调效果。NEFTune 在训练过程中向嵌入向量添加噪声。在使用 Alpaca 对 LLaMA-2-7B 进行标准微调时,其在 AlpacaEval 上的表现为 29.79%,而使用带噪嵌入后则上升至 64.69%。NEFTune 在多个现代指令数据集上也优于强基线:使用 Evol-Instruct 微调的模型提升了 10%,使用 ShareGPT 提升了 8%,使用 OpenPlatypus 同样提升了 8%。即使是如 LLaMA-2-Chat 这类经过 RLHF 进一步优化的强大模型,也能从 NEFTune 的进一步训练中受益。

1 引言

大型语言模型(LLM)遵循详细指令的能力,是其实用性的核心。生成式语言模型通常在原始网页数据上预训练,随后在一小部分经过精心筛选的指令数据上进行微调。指令微调是驯服 LLM 能力的关键,而模型的实用性在很大程度上取决于我们如何最大化地利用这些有限的指令数据集。

本文提出,在微调的前向传播过程中,向训练数据的嵌入向量添加随机噪声。我们展示了这一简单技巧能够显著提升指令微调的效果,且无需额外计算或数据成本。Noisy Embedding Instruction Fine Tuning(NEFTune)虽然方法简单,但对下游对话质量有着显著影响。当一个原始 LLM(如 LLaMA-2-7B)在带噪嵌入下进行微调,其在 AlpacaEval 上的表现从 29.8% 提升至 64.7%(见图 1)——实现了约 35 个百分点的惊人提升(Touvron et al., 2023b;Dubois et al.,

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/4 10:32:29

CGPO:完美融合—用评审混合机制重塑RLHF

强化学习人类反馈(Reinforcement learning from human feedback,RLHF)已成为微调大语言模型(LLM)的主流方法。然而,RLHF在多任务学习(MTL)中存在局限性,原因在于奖励操纵(reward hacking)问题以及极端的多目标优化(即多个甚至有时相互冲突的目标之间的权衡)带来的…

作者头像 李华
网站建设 2026/4/3 20:47:53

【MCP与Azure OpenAI集成实战】:掌握企业级AI应用落地的黄金法则

第一章:MCP与Azure OpenAI集成的核心价值将MCP(Microsoft Cloud Platform)与Azure OpenAI服务深度集成,为企业级人工智能应用提供了强大的技术支撑。这种融合不仅提升了模型调用的安全性与稳定性,还通过统一的身份认证…

作者头像 李华
网站建设 2026/3/27 19:06:37

提示工程架构师法宝秘籍:实现最佳提示工程效果

提示工程架构师法宝秘籍:实现最佳提示工程效果关键词:提示工程、提示架构设计、思维链(CoT)、Few-Shot学习、反馈循环、上下文管理、多模态提示 摘要:大语言模型(LLM)就像一台“超级厨师机”——…

作者头像 李华
网站建设 2026/3/30 16:31:42

基于STM32的调试入门:STLink驱动安装快速理解

手把手教你搞定STM32调试起点:STLink驱动安装不再踩坑 你有没有过这样的经历?兴冲冲地打开Keil或STM32CubeIDE,连上Nucleo板子,点击“Download”,结果弹出一个无情的提示:“No ST-Link Found”&#xff1f…

作者头像 李华
网站建设 2026/3/27 11:01:21

通过ms-swift调用C# LINQ查询训练日志数据库

通过 ms-swift 调用 C# LINQ 查询训练日志数据库 在大模型研发日益工程化的今天,一个常被忽视但极其关键的问题浮出水面:我们如何真正“看见”模型的训练过程? 每天成百上千次的迭代、数以万计的日志行输出,最终往往只是滚动消失在…

作者头像 李华
网站建设 2026/4/4 3:43:12

ollydbg下载及安装系统学习:配套工具推荐

从零构建逆向分析环境:OllyDbg 安装与工具链实战指南 你是不是也曾在搜索“ollydbg下载”的时候,被一堆广告、捆绑软件和来路不明的压缩包搞得头大?点进去不是弹窗就是自动安装垃圾程序,甚至还有人把木马伪装成调试器……这背后其…

作者头像 李华