news 2026/6/25 12:54:05

大模型基础(三):大模型是怎么炼成的-从预训练到强化学习的完整流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型基础(三):大模型是怎么炼成的-从预训练到强化学习的完整流程

引言:大模型的"成长之路"

想象一下,如果要把一个孩子培养成优秀的作家,你会怎么教?

  1. 读书识字:先让他阅读海量书籍,掌握语言的基本规律和知识
  2. 练习写作:教他怎么按照要求写文章,比如"写一篇游记"
  3. 评价反馈:告诉他写得好的地方和不好的地方
  4. 精益求精:不断改进,越来越会写

大模型的训练过程,和这个教育流程惊人地相似!


二、第一阶段:预训练——海量数据的"读书识字"

2.1 预训练是什么?

预训练(Pretraining),就是让模型"阅读"海量文本,学习语言的基本规律和世界知识。

数据量有多大?

  • GPT-3的训练数据:约5000亿个Token(相当于几千本书的内容)
  • 来源:网页、维基百科、书籍、GitHub代码、论文、问答网站等

举个类比

预训练就像让学生读遍图书馆里所有的书。虽然他可能不理解每本书的深意,但他学会了语言的规律,记住了很多知识。

2.2 数据是怎么处理的?

原始数据质量参差不齐,需要精心处理:

数据来源原始大小过滤后大小说明
CommonCrawl(网页爬虫)45TB570GB过滤掉低质量网页
WebText2(Reddit推荐)-较小高质量讨论内容
Books1/Books2-较小互联网书籍
Wikipedia-较小维基百科百科知识

数据处理流程

  1. 质量过滤:删除低质量、乱码内容
  2. 去重:避免重复内容
  3. 隐私消除:去除个人敏感信息
  4. 分词(Tokenization):把文本切成一个个Token

2.3 什么是Token?

Token是大模型处理文本的基本单位,可以理解为"字"或"词"。

换算关系

  • 1个英文字符 ≈ 0.3个Token
  • 1个中文字符 ≈ 0.6个Token

举例

原文:"我爱学习AI"
Token化:["我", "爱", "学习", "AI"]
Token数量:约4个

2.4 训练需要多少算力?

预训练是"烧钱"的环节:

模型参数量GPU数量训练时间
GPT-31750亿约1000块数周
BLOOM1760亿384块A1003.5个月

为什么这么贵?

  • 模型参数庞大(数百亿到千亿级别)
  • 数据量巨大(数千亿Token)
  • 需要高性能GPU集群

2.5 预训练后得到什么?

预训练完成后,得到基础模型(Base Model)

基础模型的能力:

  • 掌握了大量语言规律
  • 记住了很多世界知识
  • 但不会按照人类指令回答问题

🤔思考题:为什么基础模型不能直接用?

因为它的训练目标是"预测下一个字",而不是"回答问题"。你问"今天天气怎么样",它可能会继续写"怎么样呢,我也不知道"——因为它以为你在让它续写句子,而不是问问题!


三、第二阶段:有监督微调(SFT)——学会"听指令"

3.1 SFT是什么?

有监督微调(Supervised Finetuning,SFT),也叫指令微调,就是教模型理解人类指令并按要求回答。

类比

预训练学会了"说话",SFT学会了"听话"——理解用户想要什么。

3.2 SFT数据长什么样?

SFT数据是"指令+回答"的配对:

示例数据

{
"instruction": "复旦大学有几个校区?",
"output": "复旦大学现有4个校区,分别是邯郸校区、新江湾校区、枫林校区和张江校区..."
}

数据量:通常只需要几万条高质量数据(比预训练少得多!)

3.3 数据怎么构建?

有四种主要方法:

方法说明优点缺点
手动构建人工编写指令和回答高质量、可解释费时费力
数据集转换整合现有开源数据集多样性、规模大需格式标准化
自动构建用LLM生成指令(Self-Instruct)高效、可扩展质量需过滤
综合模式结合多种方法兼顾各方面流程复杂

Self-Instruct流程

  1. 用GPT生成任务指令
  2. 生成对应的输入输出
  3. 过滤低质量数据(相似度过滤)
  4. 形成训练数据集

3.4 一个有趣的发现:表层对齐假设

研究发现,高质量的数据量可能不需要那么多

实验结果:LLaMA 65B + 1000条高质量数据(LIMA)的效果,竟然和52000条数据(Alpaca)差不多!

这说明:模型的能力主要来自预训练,SFT只是教它怎么"展示"这些能力

3.5 SFT后的模型能做什么?

SFT模型具备:

  • 理解用户指令的能力
  • 基本的问答、翻译、摘要能力
  • 对未知任务的泛化能力

很多开源模型(如ChatGLM、Vicuna、MOSS)都是SFT模型,效果可以达到ChatGPT的90%!


四、第三阶段:奖励建模(RM)——学会"评判好坏"

4.1 RM是什么?

奖励建模(Reward Modeling),就是训练一个模型来判断回答的质量高低

类比

RM就像一个"阅卷老师",给每个答案打分。

4.2 RM数据怎么构建?

RM数据是"指令+多个回答+排序":

示例数据

指令:"如何提高写作能力?"
回答A(排第1):多读多写,刻意练习...
回答B(排第2):每天写日记...
回答C(排第3):随便写就行...
标注者按质量排序:A > B > C

数据量:通常需要百万条对比数据!

4.3 RM模型怎么训练?

RM本质上是一个二分类模型

给定两个回答A和B,判断哪个更好:

  • 输入:指令 + 回答A + 回答B
  • 输出:A更好的概率

4.4 RM为什么重要?

RM的准确率直接决定下一阶段强化学习的效果!

如果RM判断错误,模型就会"学歪"——把差的回答当成好的。


五、第四阶段:强化学习(RL)——最终"精益求精"

5.1 RL是什么?

强化学习(Reinforcement Learning),就是用RM的反馈,进一步优化模型。

类比

RL就像学生根据老师的评分,不断改进自己的写作技巧。

5.2 RL的核心流程

详细流程

  1. 用户给出指令
  2. SFT模型生成回答
  3. RM对回答打分(奖励)
  4. 根据奖励调整模型参数
  5. 使得模型倾向于生成高分回答

5.3 RL有什么问题?

RL有几个挑战:

  • 稳定性不高:训练容易发散
  • 超参数众多:调参难度大
  • 多样性降低:模型可能变得"保守"

💡有趣发现:Andrej Karpathy指出,RL会使模型输出的"熵降低",也就是变得更确定、更安全,但也可能减少创造性。

5.4 RL之后得到什么?

最终得到的RL模型,就是像ChatGPT、Claude这样的产品级模型。

它具备:

  • 理解复杂指令
  • 生成高质量回答
  • 较少的幻觉和错误

六、完整流程回顾

让我们用一个表格总结四个阶段:

阶段目标数据算力时间产出
预训练学习语言和知识数千亿Token1000+GPU数周Base Model
SFT学会理解指令数万条指令-回答1-100GPU数天SFT Model
RM学会评判质量百万条对比排序1-100GPU数天RM Model
RL优化回答质量十万条指令1-100GPU数天ChatGPT
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 12:52:55

告别风扇噪音!5步掌握Windows最强风扇智能控制软件

告别风扇噪音!5步掌握Windows最强风扇智能控制软件 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/Fa…

作者头像 李华
网站建设 2026/6/25 12:52:23

FanControl:Windows电脑风扇智能控制的终极解决方案

FanControl:Windows电脑风扇智能控制的终极解决方案 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/F…

作者头像 李华
网站建设 2026/6/25 12:49:56

新能源工控数据公网传输防篡改实战:基于计算网关的安全中继架构

摘要:随着储能系统在大规模投运,传统的依赖明文TCP报文执行远程调度的模式导致了极大的中间人攻击和数据篡改隐患。本文从底层物联网安全架构师的视角出发,深度拆解符合高等级防窃听规范的本地加固控制架构。探讨如何在网络边界部署具备隔离环…

作者头像 李华
网站建设 2026/6/25 12:49:12

Burp Suite与安卓模拟器抓包实战:解密HTTPS与微信小程序网络分析

1. 项目概述:为什么需要抓包模拟器?在移动应用和微信小程序的开发、测试乃至安全评估过程中,一个核心的痛点就是:我们如何像在浏览器里按F12一样,清晰地看到手机里每一个APP、每一个小程序发出的网络请求和接收的响应&…

作者头像 李华
网站建设 2026/6/25 12:48:56

AI手感训练场:10个网站构建真实交互直觉

1. 这不是清单,是AI时代的手感训练场你有没有过这种体验:第一次用ChatGPT写邮件,手悬在键盘上三秒,删掉又重写,最后只敢输入“帮我润色一段工作汇报”——不是不会用,是不知道它到底能接住多大的力。这恰恰…

作者头像 李华
网站建设 2026/6/25 12:48:40

Sqribble文档自动化系统:模板驱动的PDF电子书生成工具解析

1. 项目概述:这不是“一键生成”,而是一套被精心封装的文档流水线你有没有过这种经历:手头有一篇写得不错的博客文章,老板突然说“赶紧做成个PDF小册子,明天发给客户当资料包”;或者运营同事甩来三篇行业干…

作者头像 李华