程序员必学！大模型微调方法详解：从SFT到GKD，一篇搞定-开发者社区

省流版：

方法	核心类比（教小孩写作业）	关键特点	适用场景
SFT	照着标准答案抄，掌握基础答题格式	有监督、靠“模仿”入门，无反馈优化	模型初次适配简单任务（如基础客服）
PPO	加评分老师，按分数调整答题方向	需奖励模型（评分老师）、传统 RLHF 方案	需初步优化模型灵活性（早期应用多）
DPO	直接给两篇作文，选 “哪个更好”	无奖励模型、两两对比、工业界最常用	高效对齐人类偏好（主流选择）
GRPO	给一组作文（3-4 篇），直接挑 “最好的”	无奖励模型、支持多选项对比、更贴近人类习惯	需灵活表达偏好的场景
DAPO	不仅要写好作文，还要避免千篇一律	DPO 改进版、解决 “模式崩塌”、兼顾多样性	需丰富回答风格（如创意对话）
GKD	让 “大师兄”（强模型）带练，再按人类偏好改	知识蒸馏 + 偏好优化、小模型快速追大模型	低成本提升小模型能力（如手机 APP）

1. SFT（有监督微调）—— 只会 “抄标准答案”的乖学生

刚完成预训练的大模型，就像刚认全课本里的字、却不会灵活答题的小学生：知道 “你好” 怎么说，却不懂 “客户抱怨‘等了半小时’该怎么回”；会算 “2+3”，却答不出 “3 个苹果分给 2 个小朋友怎么分”。

这时候，SFT（有监督微调）就登场了 —— 它像给孩子 “划重点”的家长 / 老师，专治 “不会举一反三”的毛病。

第一步先准备“教材”，也就是数据集，老师会手写一本《作业标准答案本》，里面全是 “问题 + 完美答案”的配对：比如：

{ "messages": [ {"role": "system", "content": "你是个有用无害的助手"}, {"role": "user", "content": "1+1等于几"}, {"role": "assistant", "content": "等于2"} ] }

学生（模型）的学习方式也简单：照着答案抄！练个几十上百遍后，遇到《标准答案本》里有的题，那答得比谁都快 —— 问 “查物流”，立刻复述步骤；问 “下雨怎么办”，秒回 “带伞”。

这就是SFT 的核心：靠“模仿”快速掌握基础技能，不用从零教起，效率特别高。但问题很快就暴露了：这孩子只会“死记硬背”，根本没懂 “为什么要这么答”：

手册里写 “问‘1 个蛋糕分 3 人’→答‘切 3 块’”，要是问 “3 个蛋糕分 1 人”，它可能还会愣一下，甚至乱答 “切 3 块”；
客服场景里教了 “没拆封的货能退”，遇到 “拆了但质量坏了要退”的问题，它要么重复 “没拆封才能退”，要么胡扯 “退不了”；
要是手册里 100 道题的回答都带 “请您”，它之后不管跟谁说话，都只会套 “请您 XX”，像个没感情的 “模板机器人”。
说到底，SFT 只教会了模型 “模仿”，没教会它 “思考”。它能精准复刻见过的答案，却搞不懂答案背后的 “分寸”。

2. PPO—— 有 “评分老师” 把关的 “进阶训练”

刚刚说到，SFT 教出的孩子只会抄标准答案，遇到新题就懵。那咋让他变灵活？这时候就得请出PPO（近端策略优化）—— 你可以把它理解成给孩子加了个 “专属评分老师”，专门帮他校准答题方向。

咱先把逻辑捋明白：SFT 是 “给答案让孩子抄”，PPO 则是 “看孩子答题后打分，让他自己改”。这个 “评分老师” 在技术里叫奖励模型（Reward Model），它手里攥着一套 “打分标准”：比如回答要准确、要贴心、不能答非所问。

PPO 数据集示例 { "prompt": "1+1等于几", "response": "等于2", "reference": "2", "reward": 1.0 // 规则计算或由奖励模型计算, 一般不显式出现在数据集中 }

具体咋操作？举个例子：

孩子（经过 SFT 的模型）现在答 “拆封的坏货能不能退”，可能还会说 “退不了”。这时候 “评分老师” 就来了 —— 看了看标准，给这答案打个 30 分（低分），还备注 “没考虑质量问题，不够贴心”；接着老师会暗示 “要是说 ‘拆封但质量有问题也能退，我帮您查流程’ 会更好”。

孩子记着这个分数和提示，下次再遇到类似题，就会往 “贴心、准确” 的方向调整。练得多了，慢慢就知道 “哪种回答能拿高分”，比如遇到客户抱怨，不再只会说 “抱歉”，还会加一句 “我马上帮您解决” —— 这就是 PPO 的核心：靠 “评分反馈” 让模型主动优化，比 SFT 更灵活。

这里要划个重点：如果把 “先 SFT 打基础，再用 PPO 调方向” 的组合拳打包，就叫ReFT（强化微调）；而如果 PPO 里的 “评分老师”（奖励模型）的 “打分标准” 是根据人类反馈定的（比如让真实客服给回答打分，再把标准教给奖励模型），那这套流程就升级成了常说的RLHF（基于人类反馈的强化学习）—— 简单说，“人类说了算的 ReFT，就是 RLHF”。

但这 “评分老师” 也不是万能的，问题很快就冒出来了：

有偏差：老师若偏爱“特别客气的回答”，哪怕不够准确也高分 → 模型学会满嘴客套话。
维护麻烦：政策变化得不断更新“打分标准”，费时费力。
打分不稳定：今天 80 分、明天 60 分，波动大 → 模型容易学歪。
所以啊，PPO 虽然让模型从 “只会抄” 变成了 “会优化”，但 “评分老师” 靠不靠谱，直接决定了孩子能学多好。那咋解决 “老师不靠谱” 的问题？这就得看后续怎么给 RLHF “补漏洞” 了。

3. DPO—— 不用 “评分老师”，人类直接 “选好坏”

刚刚咱吐槽 PPO 的 “评分老师” 太麻烦：要么带偏见（比如偏爱客套话），要么打分忽高忽低，还得天天更新标准维护它。后来大家琢磨：既然咱最终要的是 “模型符合人类觉得好的标准”，那为啥还要绕 “老师打分” 这个弯？直接让人类来判断 “哪个好、哪个差” 不就行了？

哎，这想法一落地，DPO（直接偏好优化）就来了 —— 它相当于让 “评分老师” 这个奖励模型原地退休，让人类直接当 “裁判”，简单粗暴还靠谱。

具体咋操作？还是拿 “退货问题” 举例：

经过 SFT 基础训练的孩子（模型），现在会写出两种回答：

A. “拆封的货退不了。”
B. “拆封但质量有问题也能退，我马上帮您查退货流程～”

这时候不用 “评分老师” 打 30 分还是 80 分，直接找个懂行的人类（比如资深客服、真实用户）来选：“你觉得 A 和 B 哪个更贴心、更有用？”

人类肯定选 B。那孩子（模型）就 get 到了：“哦，原来这种回答更受人类喜欢！” 之后再遇到类似问题，就会主动让 B 这类 “好回答” 出现的概率变大，让 A 这类 “差回答” 的概率变小 —— 这就是 DPO 的核心：跳过 ‘打分’ 环节，直接用人类的 ‘偏好对比’ 教模型优化。

DPO数据集格式（示例），不同训练框架定义的字段有区别 { "prompt": "请解释量子纠缠的原理。", "chosen": "量子纠缠是一种量子态相关性，即两个或多个粒子的状态相互依赖...", "rejected": "量子纠缠就是量子力学里很神奇的东西，你不用管太多。" }

它的优点特别突出，也难怪现在成了香饽饽：

彻底告别 “评分老师”：不用再花精力训练、维护奖励模型，省人力物力。
简单又稳定：直接用大量 “人类已选的好/坏对” 样本逼近人类偏好，减少漂移。
业界主流：已成为主流 RLHF 实践里的常用方法之一。

4. GRPO—— 不止 “两两比”，能从 “一组里挑最好”

DPO 让人类直接 “二选一”，比 PPO 省了 “评分老师”，已经很方便了。但咱细想下：平时给孩子改作文，你会只拿两篇让他选 “哪个好” 吗？大概率不会 —— 更常见的是把三四篇放一起，直接说 “这 4 篇里，第 3 篇最贴心、最解决问题”。

这不，GRPO（分组相对偏好优化）就盯上了这个 “小细节”—— 它把 DPO 的 “两两对比” 升级成了 “一组里选最优”，更贴合人类平时判断偏好的习惯。

还是拿 “售后回答” 举例子：

现在孩子（模型）针对 “拆封质量问题退货”，写出了 4 个回答：

“拆封的退不了。”
“质量问题能退，自己查流程。”
“拆封但质量有问题也能退，我马上帮您查退货步骤～”
“不清楚，你问别人吧。”
按 DPO 的玩法，得先拿 1 和 2 比、再拿 2 和 3 比…… 来回比好几轮；但 GRPO 不用这么麻烦 —— 直接把 4 个回答摆给人类（比如资深客服），说 “你看这 4 个里，哪个最让用户满意？”
人类一眼就能指出 “第 3 个最好”。孩子（模型）就明白了：“原来在这一组里，第 3 种回答是最优的！” 之后再遇到类似场景，不仅会避开 1、4 这种差回答，还会主动往 3 这种 “最优方向” 靠 —— 这就是 GRPO 的核心：跳过多次两两对比，直接从一组选项里学 “最优偏好”，效率更高。

GRPO数据集示例，不同训练框架定义字段有区别 { "prompt": "解释量子纠缠", "responses": [ "量子纠缠是一种量子态之间的强相关性...", "量子纠缠就是量子力学里很神奇的东西。", "两个粒子无论多远，测量一个会影响另一个。" ], "scores": [0.9, 0.2, 0.7] }

它的特点也很鲜明：

对比方式更灵活：
不用局限于 “两个里选一个”，3 个、4 个甚至更多回答放一起比都能行，更符合人类实际判断的逻辑；
照样不用 “评分老师”：
和 DPO 一样，直接用人类的偏好判断来优化模型，省了训练、维护奖励模型的麻烦；
潜力股选手：
现在 GRPO 因为 “更贴近人类习惯”，已经越来越受关注，但毕竟出来比 DPO 晚，目前的应用规模还没 DPO 那么广 —— 不过照着这趋势，以后说不定会越来越常用。
你看这一路的优化多有意思：从 SFT “照抄答案”，到 PPO “靠老师打分”，再到 DPO “两两选好坏”、GRPO “一组挑最优”，大模型微调其实就是在不断 “贴近人类的做事习惯”—— 不用复杂公式，本质上都是想让模型 “更懂咱们到底想要啥回答”。

5. DAPO—— 不让孩子 “钻空子写模板”，兼顾好与多样

前面的 DPO、GRPO 解决了 “怎么让模型学人类偏好”，但新问题又冒出来了：就像孩子摸清了 “写什么样的作文能拿高分” 后，开始偷偷 “钻空子” —— 比如每次写 “我的周末”，都只写 “去公园放风筝，天气很好，玩得很开心”，虽然老师每次都给好评，但翻来覆去就这一套，毫无新意。

模型也会这样：为了稳定符合人类偏好，它会反复输出 “安全但单调” 的回答 —— 比如客服场景里，不管用户问 “查物流”“改地址” 还是 “退差价”，都套 “我帮您处理哦～” 的模板，虽然没毛病，但不够灵活，这在技术里叫“模式崩塌 / 多样性缺失”。而DAPO（分布感知偏好优化），就是专门治这个 “模板依赖症” 的改进方案。

还是拿 “写作文” 举例：

老师（人类）用 DAPO 的思路教孩子时，不再只说 “这篇好，就学它”，而是多补了一句：“这篇‘放风筝’写得好，但你也可以试试写‘帮妈妈做蛋糕’‘和朋友打羽毛球’—— 只要写得真情实感，不一样的内容也能拿高分。”

这里的 “允许不一样的好内容”，就是 DAPO 里的“分布约束”：它会在模型学 “人类喜欢什么” 的同时，加一道 “限制” —— 别总盯着一种回答反复输出，要在 “高质量” 和 “多样性” 之间找平衡。

DAPO数据集示例，不同训练框架定义的字段有区别 { "prompt": "解释量子纠缠", "chosen": "量子纠缠是一种量子态之间的强相关性...", "rejected": "量子纠缠就是量子力学里很神奇的东西。", "advantage": 0.8 // 用于训练的优势估计 }

比如模型回答 “退货问题” 时，既可以说 “我帮您查退货流程～”，也可以说 “您先确认下商品是否在退货期内，我再一步步教您操作”，甚至可以说 “需要我帮您转接售后专员处理吗？” —— 这些回答都符合 “贴心解决问题” 的偏好，但风格和方式不同，不会让人觉得像机器人套模板。

DAPO 的核心特点：

专治模式崩塌：
缓解回答单调，提升表达多样性。
DPO 升级版：
在偏好对齐外加入分布约束，鼓励多条“好路”并存。
更贴近真实需求：
用户既要高质量，又不想每次听同一句“模板礼貌”。

从解决 “不会答”（SFT），到 “答得对”（PPO/DPO），再到 “答得又对又多样”（DAPO），大模型微调每一步，都是在往 “更像人交流” 靠 —— 不仅要懂咱们想要什么，还要懂 “怎么说才不无聊”。

6. GKD—— 有 “大师兄” 带飞，小模型进步更快

前面讲的 SFT 到 DAPO，都是 “孩子自己跟着家长 / 人类学”；但现实里，有的孩子运气更好 —— 家里还有个 “大师兄”（比如已经考上重点中学、写作超厉害的哥哥），能带着他一起进步。这对应的，就是大模型微调里的GKD（生成式知识蒸馏）。

先搞懂 “大师兄” 是谁：这里的 “大师兄”，指的是更大、更强的大模型（比如能力全面的顶级模型）；而 “孩子”，则是我们部署在本地或端侧的小模型。小模型自己练进步慢，但有了 “大师兄” 带，就能少走很多弯路。

具体怎么带？售后回答示例：

遇到用户说 “物流停了 3 天，急死了”，大师兄会写出既贴心又专业的回答：“您别着急！我先帮您查下物流停滞的原因，是中转延迟还是地址问题，查到后马上同步您，还会帮您申请优先配送～”。

小模型不是机械抄答案，而是学“大师兄”的结构套路：安抚情绪 → 明确行动 → 给额外保障。这就是 “蒸馏” —— 把大模型里隐性的组织思路、风格与策略提炼出来。

学完还要过 “人类偏好” 这一关：人类标注者再微调“小模型”的表达，比如补充更具体的动作，形成“大师兄教方法 + 人类定偏好”的双重监督。

`GKD数据集示例，不同训练框架定义的字段有区别
{“messages”: [
{“role”: “system”, “content”: “你是个有用无害的助手”},
{“role”: “user”, “content”: “告诉我明天的天气”},
{“role”: “assistant”, “content”: “明天天气晴朗”}
]}

{“messages”: [
{“role”: “system”, “content”: “你是个有用无害的数学计算器”},
{“role”: “user”, “content”: “1+1等于几”},
{“role”: “assistant”, “content”: “等于2”},
{“role”: “user”, “content”: “再加1呢”},
{“role”: “assistant”, “content”: “等于3”}
]}`

GKD 的核心特点：

“蒸馏 + 偏好” 双 Buff：
先学大模型的能力，再用人类偏好校准，避免照搬冗余或过度冗长的风格。
小模型快车道：
无需从零训练，快速接近大模型效果。
成本友好：
推理成本低，适合端侧 / 私有化 / 嵌入式部署。

大模型微调的主线始终是 “降本增效”：让更小的模型也能用得起、表现好、响应快，而 GKD 正是把“大模型经验” 传给“小模型”的高性价比方案。

总结

–

**回顾大模型微调方法的演进，其实就是一场 “让模型越来越懂人类” 的升级：**从 SFT 的 “照猫画虎”，到各类优化方法围绕 “人类偏好” 不断简化流程、贴近需求，最终形成了 RLHF 领域三类主流方案的清晰定位 ——

PPO：传统标准派
作为 RLHF 的经典方案，它靠 “评分老师（奖励模型）” 帮模型找方向，解决了 SFT “不会变通” 的问题，但也因 “需要维护奖励模型、训练复杂”，逐渐从 “首选” 变成 “传统备选”，更适合对流程可控性要求高的场景。
DPO：当下顶流派
它砍掉了 “评分老师” 这个中间环节，直接让人类 “两两选好坏”，既简单又稳定，完美踩中了工业界 “高效落地” 的需求，如今已是最火、应用最广的方案 —— 小到客服机器人，大到对话大模型，几乎都能看到它的身影。
GRPO：新兴潜力派
作为 DPO 的 “灵活升级版”，它把 “两两对比” 变成 “一组选最优”，更符合人类实际判断习惯，支持更复杂的偏好表达。虽然目前应用规模还没 DPO 广，但凭借 “贴近人类直觉” 的优势，正在成为越来越受关注的 “潜力股”。

说到底，大模型微调的核心从不是 “技术越复杂越好”，而是 “能不能用更简单的方式，让模型精准对齐人类需求”。从抄答案到选好坏，从单一对比到多样优化，每一步演进都在证明：好的技术，终究要回归 “为人类服务” 的本质。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座，技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等，欢迎大家~】

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例：带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座，技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等，欢迎大家~】

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

0690+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

程序员必学！大模型微调方法详解：从SFT到GKD，一篇搞定