news 2026/1/20 3:33:39

程序员必学!大模型微调方法详解:从SFT到GKD,一篇搞定

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
程序员必学!大模型微调方法详解:从SFT到GKD,一篇搞定

省流版:

方法核心类比(教小孩写作业)关键特点适用场景
SFT照着标准答案抄,掌握基础答题格式有监督、靠“模仿”入门,无反馈优化模型初次适配简单任务(如基础客服)
PPO加评分老师,按分数调整答题方向需奖励模型(评分老师)、传统 RLHF 方案需初步优化模型灵活性(早期应用多)
DPO直接给两篇作文,选 “哪个更好”无奖励模型、两两对比、工业界最常用高效对齐人类偏好(主流选择)
GRPO给一组作文(3-4 篇),直接挑 “最好的”无奖励模型、支持多选项对比、更贴近人类习惯需灵活表达偏好的场景
DAPO不仅要写好作文,还要避免千篇一律DPO 改进版、解决 “模式崩塌”、兼顾多样性需丰富回答风格(如创意对话)
GKD让 “大师兄”(强模型)带练,再按人类偏好改知识蒸馏 + 偏好优化、小模型快速追大模型低成本提升小模型能力(如手机 APP)

1. SFT(有监督微调)—— 只会 “抄标准答案”的乖学生


刚完成预训练的大模型,就像刚认全课本里的字、却不会灵活答题的小学生:知道 “你好” 怎么说,却不懂 “客户抱怨‘等了半小时’该怎么回”;会算 “2+3”,却答不出 “3 个苹果分给 2 个小朋友怎么分”。

这时候,SFT(有监督微调)就登场了 —— 它像给孩子 “划重点”的家长 / 老师,专治 “不会举一反三”的毛病。

第一步先准备“教材”,也就是数据集,老师会手写一本《作业标准答案本》,里面全是 “问题 + 完美答案”的配对:比如:

{ "messages": [ {"role": "system", "content": "你是个有用无害的助手"}, {"role": "user", "content": "1+1等于几"}, {"role": "assistant", "content": "等于2"} ] }

学生(模型)的学习方式也简单:照着答案抄!练个几十上百遍后,遇到《标准答案本》里有的题,那答得比谁都快 —— 问 “查物流”,立刻复述步骤;问 “下雨怎么办”,秒回 “带伞”。

这就是SFT 的核心:靠“模仿”快速掌握基础技能,不用从零教起,效率特别高。但问题很快就暴露了:这孩子只会“死记硬背”,根本没懂 “为什么要这么答”:

  • 手册里写 “问‘1 个蛋糕分 3 人’→答‘切 3 块’”,要是问 “3 个蛋糕分 1 人”,它可能还会愣一下,甚至乱答 “切 3 块”;

  • 客服场景里教了 “没拆封的货能退”,遇到 “拆了但质量坏了要退”的问题,它要么重复 “没拆封才能退”,要么胡扯 “退不了”;

  • 要是手册里 100 道题的回答都带 “请您”,它之后不管跟谁说话,都只会套 “请您 XX”,像个没感情的 “模板机器人”。

    说到底,SFT 只教会了模型 “模仿”,没教会它 “思考”。它能精准复刻见过的答案,却搞不懂答案背后的 “分寸”。

2. PPO—— 有 “评分老师” 把关的 “进阶训练”


刚刚说到,SFT 教出的孩子只会抄标准答案,遇到新题就懵。那咋让他变灵活?这时候就得请出PPO(近端策略优化)—— 你可以把它理解成给孩子加了个 “专属评分老师”,专门帮他校准答题方向。

咱先把逻辑捋明白:SFT 是 “给答案让孩子抄”,PPO 则是 “看孩子答题后打分,让他自己改”。这个 “评分老师” 在技术里叫奖励模型(Reward Model),它手里攥着一套 “打分标准”:比如回答要准确、要贴心、不能答非所问。

PPO 数据集示例 { "prompt": "1+1等于几", "response": "等于2", "reference": "2", "reward": 1.0 // 规则计算或由奖励模型计算, 一般不显式出现在数据集中 }

具体咋操作?举个例子:

孩子(经过 SFT 的模型)现在答 “拆封的坏货能不能退”,可能还会说 “退不了”。这时候 “评分老师” 就来了 —— 看了看标准,给这答案打个 30 分(低分),还备注 “没考虑质量问题,不够贴心”;接着老师会暗示 “要是说 ‘拆封但质量有问题也能退,我帮您查流程’ 会更好”。

孩子记着这个分数和提示,下次再遇到类似题,就会往 “贴心、准确” 的方向调整。练得多了,慢慢就知道 “哪种回答能拿高分”,比如遇到客户抱怨,不再只会说 “抱歉”,还会加一句 “我马上帮您解决” —— 这就是 PPO 的核心:靠 “评分反馈” 让模型主动优化,比 SFT 更灵活。

这里要划个重点:如果把 “先 SFT 打基础,再用 PPO 调方向” 的组合拳打包,就叫ReFT(强化微调);而如果 PPO 里的 “评分老师”(奖励模型)的 “打分标准” 是根据人类反馈定的(比如让真实客服给回答打分,再把标准教给奖励模型),那这套流程就升级成了常说的RLHF(基于人类反馈的强化学习)—— 简单说,“人类说了算的 ReFT,就是 RLHF”。

但这 “评分老师” 也不是万能的,问题很快就冒出来了:

  • 有偏差:老师若偏爱“特别客气的回答”,哪怕不够准确也高分 → 模型学会满嘴客套话。

  • 维护麻烦:政策变化得不断更新“打分标准”,费时费力。

  • 打分不稳定:今天 80 分、明天 60 分,波动大 → 模型容易学歪。

    所以啊,PPO 虽然让模型从 “只会抄” 变成了 “会优化”,但 “评分老师” 靠不靠谱,直接决定了孩子能学多好。那咋解决 “老师不靠谱” 的问题?这就得看后续怎么给 RLHF “补漏洞” 了。


3. DPO—— 不用 “评分老师”,人类直接 “选好坏”


刚刚咱吐槽 PPO 的 “评分老师” 太麻烦:要么带偏见(比如偏爱客套话),要么打分忽高忽低,还得天天更新标准维护它。后来大家琢磨:既然咱最终要的是 “模型符合人类觉得好的标准”,那为啥还要绕 “老师打分” 这个弯?直接让人类来判断 “哪个好、哪个差” 不就行了?

哎,这想法一落地,DPO(直接偏好优化)就来了 —— 它相当于让 “评分老师” 这个奖励模型原地退休,让人类直接当 “裁判”,简单粗暴还靠谱。

具体咋操作?还是拿 “退货问题” 举例:

经过 SFT 基础训练的孩子(模型),现在会写出两种回答:

A. “拆封的货退不了。”
B. “拆封但质量有问题也能退,我马上帮您查退货流程~”

这时候不用 “评分老师” 打 30 分还是 80 分,直接找个懂行的人类(比如资深客服、真实用户)来选:“你觉得 A 和 B 哪个更贴心、更有用?”

人类肯定选 B。那孩子(模型)就 get 到了:“哦,原来这种回答更受人类喜欢!” 之后再遇到类似问题,就会主动让 B 这类 “好回答” 出现的概率变大,让 A 这类 “差回答” 的概率变小 —— 这就是 DPO 的核心:跳过 ‘打分’ 环节,直接用人类的 ‘偏好对比’ 教模型优化

DPO数据集格式(示例),不同训练框架定义的字段有区别 { "prompt": "请解释量子纠缠的原理。", "chosen": "量子纠缠是一种量子态相关性,即两个或多个粒子的状态相互依赖...", "rejected": "量子纠缠就是量子力学里很神奇的东西,你不用管太多。" }

它的优点特别突出,也难怪现在成了香饽饽:

  • 彻底告别 “评分老师”:不用再花精力训练、维护奖励模型,省人力物力。
  • 简单又稳定:直接用大量 “人类已选的好/坏对” 样本逼近人类偏好,减少漂移。
  • 业界主流:已成为主流 RLHF 实践里的常用方法之一。

4. GRPO—— 不止 “两两比”,能从 “一组里挑最好”


DPO 让人类直接 “二选一”,比 PPO 省了 “评分老师”,已经很方便了。但咱细想下:平时给孩子改作文,你会只拿两篇让他选 “哪个好” 吗?大概率不会 —— 更常见的是把三四篇放一起,直接说 “这 4 篇里,第 3 篇最贴心、最解决问题”。

这不,GRPO(分组相对偏好优化)就盯上了这个 “小细节”—— 它把 DPO 的 “两两对比” 升级成了 “一组里选最优”,更贴合人类平时判断偏好的习惯。

还是拿 “售后回答” 举例子:

现在孩子(模型)针对 “拆封质量问题退货”,写出了 4 个回答:

  1. “拆封的退不了。”

  2. “质量问题能退,自己查流程。”

  3. “拆封但质量有问题也能退,我马上帮您查退货步骤~”

  4. “不清楚,你问别人吧。”

    按 DPO 的玩法,得先拿 1 和 2 比、再拿 2 和 3 比…… 来回比好几轮;但 GRPO 不用这么麻烦 —— 直接把 4 个回答摆给人类(比如资深客服),说 “你看这 4 个里,哪个最让用户满意?”

    人类一眼就能指出 “第 3 个最好”。孩子(模型)就明白了:“原来在这一组里,第 3 种回答是最优的!” 之后再遇到类似场景,不仅会避开 1、4 这种差回答,还会主动往 3 这种 “最优方向” 靠 —— 这就是 GRPO 的核心:跳过多次两两对比,直接从一组选项里学 “最优偏好”,效率更高。

GRPO数据集示例,不同训练框架定义字段有区别 { "prompt": "解释量子纠缠", "responses": [ "量子纠缠是一种量子态之间的强相关性...", "量子纠缠就是量子力学里很神奇的东西。", "两个粒子无论多远,测量一个会影响另一个。" ], "scores": [0.9, 0.2, 0.7] }

它的特点也很鲜明:
  • 对比方式更灵活:

    不用局限于 “两个里选一个”,3 个、4 个甚至更多回答放一起比都能行,更符合人类实际判断的逻辑;

  • 照样不用 “评分老师”:

    和 DPO 一样,直接用人类的偏好判断来优化模型,省了训练、维护奖励模型的麻烦;

  • 潜力股选手:

    现在 GRPO 因为 “更贴近人类习惯”,已经越来越受关注,但毕竟出来比 DPO 晚,目前的应用规模还没 DPO 那么广 —— 不过照着这趋势,以后说不定会越来越常用。

    你看这一路的优化多有意思:从 SFT “照抄答案”,到 PPO “靠老师打分”,再到 DPO “两两选好坏”、GRPO “一组挑最优”,大模型微调其实就是在不断 “贴近人类的做事习惯”—— 不用复杂公式,本质上都是想让模型 “更懂咱们到底想要啥回答”。


5. DAPO—— 不让孩子 “钻空子写模板”,兼顾好与多样


前面的 DPO、GRPO 解决了 “怎么让模型学人类偏好”,但新问题又冒出来了:就像孩子摸清了 “写什么样的作文能拿高分” 后,开始偷偷 “钻空子” —— 比如每次写 “我的周末”,都只写 “去公园放风筝,天气很好,玩得很开心”,虽然老师每次都给好评,但翻来覆去就这一套,毫无新意。

模型也会这样:为了稳定符合人类偏好,它会反复输出 “安全但单调” 的回答 —— 比如客服场景里,不管用户问 “查物流”“改地址” 还是 “退差价”,都套 “我帮您处理哦~” 的模板,虽然没毛病,但不够灵活,这在技术里叫“模式崩塌 / 多样性缺失”。而DAPO(分布感知偏好优化),就是专门治这个 “模板依赖症” 的改进方案。

还是拿 “写作文” 举例:

老师(人类)用 DAPO 的思路教孩子时,不再只说 “这篇好,就学它”,而是多补了一句:“这篇‘放风筝’写得好,但你也可以试试写‘帮妈妈做蛋糕’‘和朋友打羽毛球’—— 只要写得真情实感,不一样的内容也能拿高分。”

这里的 “允许不一样的好内容”,就是 DAPO 里的“分布约束”:它会在模型学 “人类喜欢什么” 的同时,加一道 “限制” —— 别总盯着一种回答反复输出,要在 “高质量” 和 “多样性” 之间找平衡。

DAPO数据集示例,不同训练框架定义的字段有区别 { "prompt": "解释量子纠缠", "chosen": "量子纠缠是一种量子态之间的强相关性...", "rejected": "量子纠缠就是量子力学里很神奇的东西。", "advantage": 0.8 // 用于训练的优势估计 }

比如模型回答 “退货问题” 时,既可以说 “我帮您查退货流程~”,也可以说 “您先确认下商品是否在退货期内,我再一步步教您操作”,甚至可以说 “需要我帮您转接售后专员处理吗?” —— 这些回答都符合 “贴心解决问题” 的偏好,但风格和方式不同,不会让人觉得像机器人套模板。

DAPO 的核心特点:

  • 专治模式崩塌:

    缓解回答单调,提升表达多样性。

  • DPO 升级版:

    在偏好对齐外加入分布约束,鼓励多条“好路”并存。

  • 更贴近真实需求:

    用户既要高质量,又不想每次听同一句“模板礼貌”。

从解决 “不会答”(SFT),到 “答得对”(PPO/DPO),再到 “答得又对又多样”(DAPO),大模型微调每一步,都是在往 “更像人交流” 靠 —— 不仅要懂咱们想要什么,还要懂 “怎么说才不无聊”。


6. GKD—— 有 “大师兄” 带飞,小模型进步更快


前面讲的 SFT 到 DAPO,都是 “孩子自己跟着家长 / 人类学”;但现实里,有的孩子运气更好 —— 家里还有个 “大师兄”(比如已经考上重点中学、写作超厉害的哥哥),能带着他一起进步。这对应的,就是大模型微调里的GKD(生成式知识蒸馏)

先搞懂 “大师兄” 是谁:这里的 “大师兄”,指的是更大、更强的大模型(比如能力全面的顶级模型);而 “孩子”,则是我们部署在本地或端侧的小模型。小模型自己练进步慢,但有了 “大师兄” 带,就能少走很多弯路。

具体怎么带?售后回答示例:

遇到用户说 “物流停了 3 天,急死了”,大师兄会写出既贴心又专业的回答:“您别着急!我先帮您查下物流停滞的原因,是中转延迟还是地址问题,查到后马上同步您,还会帮您申请优先配送~”。

小模型不是机械抄答案,而是学“大师兄”的结构套路:安抚情绪 → 明确行动 → 给额外保障。这就是 “蒸馏” —— 把大模型里隐性的组织思路、风格与策略提炼出来。

学完还要过 “人类偏好” 这一关:人类标注者再微调“小模型”的表达,比如补充更具体的动作,形成“大师兄教方法 + 人类定偏好”的双重监督。

`GKD数据集示例,不同训练框架定义的字段有区别
{“messages”: [
{“role”: “system”, “content”: “你是个有用无害的助手”},
{“role”: “user”, “content”: “告诉我明天的天气”},
{“role”: “assistant”, “content”: “明天天气晴朗”}
]}

{“messages”: [
{“role”: “system”, “content”: “你是个有用无害的数学计算器”},
{“role”: “user”, “content”: “1+1等于几”},
{“role”: “assistant”, “content”: “等于2”},
{“role”: “user”, “content”: “再加1呢”},
{“role”: “assistant”, “content”: “等于3”}
]}`

GKD 的核心特点:

  • “蒸馏 + 偏好” 双 Buff:

    先学大模型的能力,再用人类偏好校准,避免照搬冗余或过度冗长的风格。

  • 小模型快车道:

    无需从零训练,快速接近大模型效果。

  • 成本友好:

    推理成本低,适合端侧 / 私有化 / 嵌入式部署。

大模型微调的主线始终是 “降本增效”:让更小的模型也能用得起、表现好、响应快,而 GKD 正是把“大模型经验” 传给“小模型”的高性价比方案。


总结

**回顾大模型微调方法的演进,其实就是一场 “让模型越来越懂人类” 的升级:**从 SFT 的 “照猫画虎”,到各类优化方法围绕 “人类偏好” 不断简化流程、贴近需求,最终形成了 RLHF 领域三类主流方案的清晰定位 ——

  1. PPO:传统标准派

    作为 RLHF 的经典方案,它靠 “评分老师(奖励模型)” 帮模型找方向,解决了 SFT “不会变通” 的问题,但也因 “需要维护奖励模型、训练复杂”,逐渐从 “首选” 变成 “传统备选”,更适合对流程可控性要求高的场景。

  2. DPO:当下顶流派

    它砍掉了 “评分老师” 这个中间环节,直接让人类 “两两选好坏”,既简单又稳定,完美踩中了工业界 “高效落地” 的需求,如今已是最火、应用最广的方案 —— 小到客服机器人,大到对话大模型,几乎都能看到它的身影。

  3. GRPO:新兴潜力派

    作为 DPO 的 “灵活升级版”,它把 “两两对比” 变成 “一组选最优”,更符合人类实际判断习惯,支持更复杂的偏好表达。虽然目前应用规模还没 DPO 广,但凭借 “贴近人类直觉” 的优势,正在成为越来越受关注的 “潜力股”。

说到底,大模型微调的核心从不是 “技术越复杂越好”,而是 “能不能用更简单的方式,让模型精准对齐人类需求”。从抄答案到选好坏,从单一对比到多样优化,每一步演进都在证明:好的技术,终究要回归 “为人类服务” 的本质。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01教学内容

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!

0690+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/10 11:27:43

5个提升YashanDB运行效率的优化策略

如何有效提升YashanDB在多样化业务场景下的运行效率,是数据库管理员和系统架构师普遍关注的关键问题。运行效率的提升直接影响数据库响应速度、资源利用率以及系统吞吐量,进而左右下游业务的稳定性和用户体验。针对YashanDB复杂的架构特点和功能体系&…

作者头像 李华
网站建设 2026/1/10 11:25:15

Qwen3-VL-WEBUI药品识别:包装文字与图像核对部署案例

Qwen3-VL-WEBUI药品识别:包装文字与图像核对部署案例 1. 引言:AI视觉语言模型在医药合规场景的落地需求 随着药品监管日益严格,医疗机构、药房及制药企业在药品分发、库存管理与合规审查中面临巨大挑战。传统人工核对药品包装信息的方式效率…

作者头像 李华
网站建设 2026/1/16 12:24:06

Qwen3-VL-WEBUI游戏开发:NPC视觉系统设计

Qwen3-VL-WEBUI游戏开发:NPC视觉系统设计 1. 引言:为何需要基于Qwen3-VL的NPC视觉系统? 在现代游戏开发中,非玩家角色(NPC)不再只是预设脚本的执行者。随着AI技术的发展,玩家期望NPC具备更真实…

作者头像 李华
网站建设 2026/1/16 8:51:50

Qwen3-VL时间建模:视频事件分析

Qwen3-VL时间建模:视频事件分析 1. 引言:Qwen3-VL-WEBUI与视频理解新范式 随着多模态大模型的快速发展,视觉-语言(Vision-Language, VL)模型在图像理解、图文生成等任务中已取得显著进展。然而,视频内容的…

作者头像 李华
网站建设 2026/1/10 11:24:27

5分钟用Java枚举构建权限管理系统原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个基于Java枚举的快速权限管理系统原型。要求:1.定义角色枚举(ADMIN, USER, GUEST) 2.定义权限枚举(CREATE, READ, UPDATE, DELETE) 3.实现角色权限映射 4.提供权…

作者头像 李华
网站建设 2026/1/10 11:24:13

Qwen3-VL-WEBUI增量训练部署:持续学习系统实战

Qwen3-VL-WEBUI增量训练部署:持续学习系统实战 1. 引言:构建可持续进化的视觉语言系统 随着多模态大模型在真实业务场景中的广泛应用,静态预训练模型已难以满足动态变化的需求。以Qwen3-VL为代表的先进视觉语言模型虽然具备强大的初始能力&…

作者头像 李华