省流版:
| 方法 | 核心类比(教小孩写作业) | 关键特点 | 适用场景 |
|---|---|---|---|
| SFT | 照着标准答案抄,掌握基础答题格式 | 有监督、靠“模仿”入门,无反馈优化 | 模型初次适配简单任务(如基础客服) |
| PPO | 加评分老师,按分数调整答题方向 | 需奖励模型(评分老师)、传统 RLHF 方案 | 需初步优化模型灵活性(早期应用多) |
| DPO | 直接给两篇作文,选 “哪个更好” | 无奖励模型、两两对比、工业界最常用 | 高效对齐人类偏好(主流选择) |
| GRPO | 给一组作文(3-4 篇),直接挑 “最好的” | 无奖励模型、支持多选项对比、更贴近人类习惯 | 需灵活表达偏好的场景 |
| DAPO | 不仅要写好作文,还要避免千篇一律 | DPO 改进版、解决 “模式崩塌”、兼顾多样性 | 需丰富回答风格(如创意对话) |
| GKD | 让 “大师兄”(强模型)带练,再按人类偏好改 | 知识蒸馏 + 偏好优化、小模型快速追大模型 | 低成本提升小模型能力(如手机 APP) |
1. SFT(有监督微调)—— 只会 “抄标准答案”的乖学生
刚完成预训练的大模型,就像刚认全课本里的字、却不会灵活答题的小学生:知道 “你好” 怎么说,却不懂 “客户抱怨‘等了半小时’该怎么回”;会算 “2+3”,却答不出 “3 个苹果分给 2 个小朋友怎么分”。
这时候,SFT(有监督微调)就登场了 —— 它像给孩子 “划重点”的家长 / 老师,专治 “不会举一反三”的毛病。
第一步先准备“教材”,也就是数据集,老师会手写一本《作业标准答案本》,里面全是 “问题 + 完美答案”的配对:比如:
{ "messages": [ {"role": "system", "content": "你是个有用无害的助手"}, {"role": "user", "content": "1+1等于几"}, {"role": "assistant", "content": "等于2"} ] }
学生(模型)的学习方式也简单:照着答案抄!练个几十上百遍后,遇到《标准答案本》里有的题,那答得比谁都快 —— 问 “查物流”,立刻复述步骤;问 “下雨怎么办”,秒回 “带伞”。
这就是SFT 的核心:靠“模仿”快速掌握基础技能,不用从零教起,效率特别高。但问题很快就暴露了:这孩子只会“死记硬背”,根本没懂 “为什么要这么答”:
手册里写 “问‘1 个蛋糕分 3 人’→答‘切 3 块’”,要是问 “3 个蛋糕分 1 人”,它可能还会愣一下,甚至乱答 “切 3 块”;
客服场景里教了 “没拆封的货能退”,遇到 “拆了但质量坏了要退”的问题,它要么重复 “没拆封才能退”,要么胡扯 “退不了”;
要是手册里 100 道题的回答都带 “请您”,它之后不管跟谁说话,都只会套 “请您 XX”,像个没感情的 “模板机器人”。
说到底,SFT 只教会了模型 “模仿”,没教会它 “思考”。它能精准复刻见过的答案,却搞不懂答案背后的 “分寸”。
2. PPO—— 有 “评分老师” 把关的 “进阶训练”
刚刚说到,SFT 教出的孩子只会抄标准答案,遇到新题就懵。那咋让他变灵活?这时候就得请出PPO(近端策略优化)—— 你可以把它理解成给孩子加了个 “专属评分老师”,专门帮他校准答题方向。
咱先把逻辑捋明白:SFT 是 “给答案让孩子抄”,PPO 则是 “看孩子答题后打分,让他自己改”。这个 “评分老师” 在技术里叫奖励模型(Reward Model),它手里攥着一套 “打分标准”:比如回答要准确、要贴心、不能答非所问。
PPO 数据集示例 { "prompt": "1+1等于几", "response": "等于2", "reference": "2", "reward": 1.0 // 规则计算或由奖励模型计算, 一般不显式出现在数据集中 }
具体咋操作?举个例子:
孩子(经过 SFT 的模型)现在答 “拆封的坏货能不能退”,可能还会说 “退不了”。这时候 “评分老师” 就来了 —— 看了看标准,给这答案打个 30 分(低分),还备注 “没考虑质量问题,不够贴心”;接着老师会暗示 “要是说 ‘拆封但质量有问题也能退,我帮您查流程’ 会更好”。
孩子记着这个分数和提示,下次再遇到类似题,就会往 “贴心、准确” 的方向调整。练得多了,慢慢就知道 “哪种回答能拿高分”,比如遇到客户抱怨,不再只会说 “抱歉”,还会加一句 “我马上帮您解决” —— 这就是 PPO 的核心:靠 “评分反馈” 让模型主动优化,比 SFT 更灵活。
这里要划个重点:如果把 “先 SFT 打基础,再用 PPO 调方向” 的组合拳打包,就叫ReFT(强化微调);而如果 PPO 里的 “评分老师”(奖励模型)的 “打分标准” 是根据人类反馈定的(比如让真实客服给回答打分,再把标准教给奖励模型),那这套流程就升级成了常说的RLHF(基于人类反馈的强化学习)—— 简单说,“人类说了算的 ReFT,就是 RLHF”。
但这 “评分老师” 也不是万能的,问题很快就冒出来了:
有偏差:老师若偏爱“特别客气的回答”,哪怕不够准确也高分 → 模型学会满嘴客套话。
维护麻烦:政策变化得不断更新“打分标准”,费时费力。
打分不稳定:今天 80 分、明天 60 分,波动大 → 模型容易学歪。
所以啊,PPO 虽然让模型从 “只会抄” 变成了 “会优化”,但 “评分老师” 靠不靠谱,直接决定了孩子能学多好。那咋解决 “老师不靠谱” 的问题?这就得看后续怎么给 RLHF “补漏洞” 了。
3. DPO—— 不用 “评分老师”,人类直接 “选好坏”
刚刚咱吐槽 PPO 的 “评分老师” 太麻烦:要么带偏见(比如偏爱客套话),要么打分忽高忽低,还得天天更新标准维护它。后来大家琢磨:既然咱最终要的是 “模型符合人类觉得好的标准”,那为啥还要绕 “老师打分” 这个弯?直接让人类来判断 “哪个好、哪个差” 不就行了?
哎,这想法一落地,DPO(直接偏好优化)就来了 —— 它相当于让 “评分老师” 这个奖励模型原地退休,让人类直接当 “裁判”,简单粗暴还靠谱。
具体咋操作?还是拿 “退货问题” 举例:
经过 SFT 基础训练的孩子(模型),现在会写出两种回答:
A. “拆封的货退不了。”
B. “拆封但质量有问题也能退,我马上帮您查退货流程~”
这时候不用 “评分老师” 打 30 分还是 80 分,直接找个懂行的人类(比如资深客服、真实用户)来选:“你觉得 A 和 B 哪个更贴心、更有用?”
人类肯定选 B。那孩子(模型)就 get 到了:“哦,原来这种回答更受人类喜欢!” 之后再遇到类似问题,就会主动让 B 这类 “好回答” 出现的概率变大,让 A 这类 “差回答” 的概率变小 —— 这就是 DPO 的核心:跳过 ‘打分’ 环节,直接用人类的 ‘偏好对比’ 教模型优化。
DPO数据集格式(示例),不同训练框架定义的字段有区别 { "prompt": "请解释量子纠缠的原理。", "chosen": "量子纠缠是一种量子态相关性,即两个或多个粒子的状态相互依赖...", "rejected": "量子纠缠就是量子力学里很神奇的东西,你不用管太多。" }
它的优点特别突出,也难怪现在成了香饽饽:
- 彻底告别 “评分老师”:不用再花精力训练、维护奖励模型,省人力物力。
- 简单又稳定:直接用大量 “人类已选的好/坏对” 样本逼近人类偏好,减少漂移。
- 业界主流:已成为主流 RLHF 实践里的常用方法之一。
4. GRPO—— 不止 “两两比”,能从 “一组里挑最好”
DPO 让人类直接 “二选一”,比 PPO 省了 “评分老师”,已经很方便了。但咱细想下:平时给孩子改作文,你会只拿两篇让他选 “哪个好” 吗?大概率不会 —— 更常见的是把三四篇放一起,直接说 “这 4 篇里,第 3 篇最贴心、最解决问题”。
这不,GRPO(分组相对偏好优化)就盯上了这个 “小细节”—— 它把 DPO 的 “两两对比” 升级成了 “一组里选最优”,更贴合人类平时判断偏好的习惯。
还是拿 “售后回答” 举例子:
现在孩子(模型)针对 “拆封质量问题退货”,写出了 4 个回答:
“拆封的退不了。”
“质量问题能退,自己查流程。”
“拆封但质量有问题也能退,我马上帮您查退货步骤~”
“不清楚,你问别人吧。”
按 DPO 的玩法,得先拿 1 和 2 比、再拿 2 和 3 比…… 来回比好几轮;但 GRPO 不用这么麻烦 —— 直接把 4 个回答摆给人类(比如资深客服),说 “你看这 4 个里,哪个最让用户满意?”
人类一眼就能指出 “第 3 个最好”。孩子(模型)就明白了:“原来在这一组里,第 3 种回答是最优的!” 之后再遇到类似场景,不仅会避开 1、4 这种差回答,还会主动往 3 这种 “最优方向” 靠 —— 这就是 GRPO 的核心:跳过多次两两对比,直接从一组选项里学 “最优偏好”,效率更高。
GRPO数据集示例,不同训练框架定义字段有区别 { "prompt": "解释量子纠缠", "responses": [ "量子纠缠是一种量子态之间的强相关性...", "量子纠缠就是量子力学里很神奇的东西。", "两个粒子无论多远,测量一个会影响另一个。" ], "scores": [0.9, 0.2, 0.7] }
它的特点也很鲜明:对比方式更灵活:
不用局限于 “两个里选一个”,3 个、4 个甚至更多回答放一起比都能行,更符合人类实际判断的逻辑;
照样不用 “评分老师”:
和 DPO 一样,直接用人类的偏好判断来优化模型,省了训练、维护奖励模型的麻烦;
潜力股选手:
现在 GRPO 因为 “更贴近人类习惯”,已经越来越受关注,但毕竟出来比 DPO 晚,目前的应用规模还没 DPO 那么广 —— 不过照着这趋势,以后说不定会越来越常用。
你看这一路的优化多有意思:从 SFT “照抄答案”,到 PPO “靠老师打分”,再到 DPO “两两选好坏”、GRPO “一组挑最优”,大模型微调其实就是在不断 “贴近人类的做事习惯”—— 不用复杂公式,本质上都是想让模型 “更懂咱们到底想要啥回答”。
5. DAPO—— 不让孩子 “钻空子写模板”,兼顾好与多样
前面的 DPO、GRPO 解决了 “怎么让模型学人类偏好”,但新问题又冒出来了:就像孩子摸清了 “写什么样的作文能拿高分” 后,开始偷偷 “钻空子” —— 比如每次写 “我的周末”,都只写 “去公园放风筝,天气很好,玩得很开心”,虽然老师每次都给好评,但翻来覆去就这一套,毫无新意。
模型也会这样:为了稳定符合人类偏好,它会反复输出 “安全但单调” 的回答 —— 比如客服场景里,不管用户问 “查物流”“改地址” 还是 “退差价”,都套 “我帮您处理哦~” 的模板,虽然没毛病,但不够灵活,这在技术里叫“模式崩塌 / 多样性缺失”。而DAPO(分布感知偏好优化),就是专门治这个 “模板依赖症” 的改进方案。
还是拿 “写作文” 举例:
老师(人类)用 DAPO 的思路教孩子时,不再只说 “这篇好,就学它”,而是多补了一句:“这篇‘放风筝’写得好,但你也可以试试写‘帮妈妈做蛋糕’‘和朋友打羽毛球’—— 只要写得真情实感,不一样的内容也能拿高分。”
这里的 “允许不一样的好内容”,就是 DAPO 里的“分布约束”:它会在模型学 “人类喜欢什么” 的同时,加一道 “限制” —— 别总盯着一种回答反复输出,要在 “高质量” 和 “多样性” 之间找平衡。
DAPO数据集示例,不同训练框架定义的字段有区别 { "prompt": "解释量子纠缠", "chosen": "量子纠缠是一种量子态之间的强相关性...", "rejected": "量子纠缠就是量子力学里很神奇的东西。", "advantage": 0.8 // 用于训练的优势估计 }
比如模型回答 “退货问题” 时,既可以说 “我帮您查退货流程~”,也可以说 “您先确认下商品是否在退货期内,我再一步步教您操作”,甚至可以说 “需要我帮您转接售后专员处理吗?” —— 这些回答都符合 “贴心解决问题” 的偏好,但风格和方式不同,不会让人觉得像机器人套模板。
DAPO 的核心特点:
专治模式崩塌:
缓解回答单调,提升表达多样性。
DPO 升级版:
在偏好对齐外加入分布约束,鼓励多条“好路”并存。
更贴近真实需求:
用户既要高质量,又不想每次听同一句“模板礼貌”。
从解决 “不会答”(SFT),到 “答得对”(PPO/DPO),再到 “答得又对又多样”(DAPO),大模型微调每一步,都是在往 “更像人交流” 靠 —— 不仅要懂咱们想要什么,还要懂 “怎么说才不无聊”。
6. GKD—— 有 “大师兄” 带飞,小模型进步更快
前面讲的 SFT 到 DAPO,都是 “孩子自己跟着家长 / 人类学”;但现实里,有的孩子运气更好 —— 家里还有个 “大师兄”(比如已经考上重点中学、写作超厉害的哥哥),能带着他一起进步。这对应的,就是大模型微调里的GKD(生成式知识蒸馏)。
先搞懂 “大师兄” 是谁:这里的 “大师兄”,指的是更大、更强的大模型(比如能力全面的顶级模型);而 “孩子”,则是我们部署在本地或端侧的小模型。小模型自己练进步慢,但有了 “大师兄” 带,就能少走很多弯路。
具体怎么带?售后回答示例:
遇到用户说 “物流停了 3 天,急死了”,大师兄会写出既贴心又专业的回答:“您别着急!我先帮您查下物流停滞的原因,是中转延迟还是地址问题,查到后马上同步您,还会帮您申请优先配送~”。
小模型不是机械抄答案,而是学“大师兄”的结构套路:安抚情绪 → 明确行动 → 给额外保障。这就是 “蒸馏” —— 把大模型里隐性的组织思路、风格与策略提炼出来。
学完还要过 “人类偏好” 这一关:人类标注者再微调“小模型”的表达,比如补充更具体的动作,形成“大师兄教方法 + 人类定偏好”的双重监督。
`GKD数据集示例,不同训练框架定义的字段有区别
{“messages”: [
{“role”: “system”, “content”: “你是个有用无害的助手”},
{“role”: “user”, “content”: “告诉我明天的天气”},
{“role”: “assistant”, “content”: “明天天气晴朗”}
]}
{“messages”: [
{“role”: “system”, “content”: “你是个有用无害的数学计算器”},
{“role”: “user”, “content”: “1+1等于几”},
{“role”: “assistant”, “content”: “等于2”},
{“role”: “user”, “content”: “再加1呢”},
{“role”: “assistant”, “content”: “等于3”}
]}`
GKD 的核心特点:
“蒸馏 + 偏好” 双 Buff:
先学大模型的能力,再用人类偏好校准,避免照搬冗余或过度冗长的风格。
小模型快车道:
无需从零训练,快速接近大模型效果。
成本友好:
推理成本低,适合端侧 / 私有化 / 嵌入式部署。
大模型微调的主线始终是 “降本增效”:让更小的模型也能用得起、表现好、响应快,而 GKD 正是把“大模型经验” 传给“小模型”的高性价比方案。
总结
–
**回顾大模型微调方法的演进,其实就是一场 “让模型越来越懂人类” 的升级:**从 SFT 的 “照猫画虎”,到各类优化方法围绕 “人类偏好” 不断简化流程、贴近需求,最终形成了 RLHF 领域三类主流方案的清晰定位 ——
PPO:传统标准派
作为 RLHF 的经典方案,它靠 “评分老师(奖励模型)” 帮模型找方向,解决了 SFT “不会变通” 的问题,但也因 “需要维护奖励模型、训练复杂”,逐渐从 “首选” 变成 “传统备选”,更适合对流程可控性要求高的场景。
DPO:当下顶流派
它砍掉了 “评分老师” 这个中间环节,直接让人类 “两两选好坏”,既简单又稳定,完美踩中了工业界 “高效落地” 的需求,如今已是最火、应用最广的方案 —— 小到客服机器人,大到对话大模型,几乎都能看到它的身影。
GRPO:新兴潜力派
作为 DPO 的 “灵活升级版”,它把 “两两对比” 变成 “一组选最优”,更符合人类实际判断习惯,支持更复杂的偏好表达。虽然目前应用规模还没 DPO 广,但凭借 “贴近人类直觉” 的优势,正在成为越来越受关注的 “潜力股”。
说到底,大模型微调的核心从不是 “技术越复杂越好”,而是 “能不能用更简单的方式,让模型精准对齐人类需求”。从抄答案到选好坏,从单一对比到多样优化,每一步演进都在证明:好的技术,终究要回归 “为人类服务” 的本质。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。
希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01教学内容
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:
04视频和书籍PDF合集
从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
05行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!
0690+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)
07 deepseek部署包+技巧大全
由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】