GPT 1到5代及chat系列的演进笔记-开发者社区

GPT 发展脉络

gpt-1(2018): 提出了 “预训练 + 微调”（Pretrain-Finetune）的范式, 证明了 transformers 架构下用更多的参数和语料可以带来更强的泛化能力, 下游训练变得容易.
gpt-2(2019): 不再 fine-tune, 实现了 zero/few shot 的能力. 因为依靠数据集和模型规模的提升, 可自行 “涌现” 高级能力.
gpt-3(2020): 进一步验证 scaling-law, 模型大到必须分布式训练.
chat-gpt(2022): 加入指令微调+基于人类反馈的强化学习, 适用 “对话” 场景. 是 Instruct gpt 模型的市场化产品.
gpt4(2023): 加入图像多模态; 首次在多个任务上接近人类专家水平.
openai-o1(2024): 原生深度推理模型, 在解数学题, 代码能力中达到人类专家水平. 但速度较慢(10几秒), 能耗较高.
gpt-5(2025.08), 在智能水平上实现了重大飞跃，其在编程、数学、写作、医疗、视觉感知等多个领域均展现出领先的性能。

1. GPT-1 (2018)

transformers decoder-only 架构, next token 预测. 预训练之后做下游任务的微调.
标题是Improving Language Understanding by Generative Pre-Training.
发表于 2018.02, 比 bert(发布于 2018.10) 早了半年.

1.1 动机

困难:NLU 任务是多样的, 有 {textual entailment, question answering, semantic similarity assessment, document classification} 等. 对这些任务收集足够多的大规模标注数据很困难.
解法: 用易得的un-labeled 的语料库做生成式的预训练. 然后仅用少许特定任务的标注数据作微调训练, 就能在 NLU 的基准测试中取得佳绩.

1.2 框架

Unsupervised pre-training

next-token 预测.

数据集是 BooksCorpus(书籍, 有长文本) 和 1B Word Benchmark.

Supervised fine-tuning

冻结预训练好的 transformers 网络权重, 只训练 sft 引入的Wy和特殊分割 token的 emb.
任务是多样的, 但预训练网络只能接受有序的 text, 所以要作转换. 转换方式见下图. 确实不如后续工作的 prompt 优雅.

1.3 模型细节

a 12-layer decoder-only transformer with masked self-attention heads (768 dimensional states and 12 attention heads).
For the position-wise feed-forward networks, we used 3072 dimensional inner states.
We used the Adam optimization scheme [27] with a max learning rate of 2.5e-4.
We used a bytepair encoding (BPE) vocabulary with 40,000 merges

2. GPT-2 (2019)

参数量达到1.5B, 语料库规模提升至10倍. 纯大规模无监督预训练, 利用 zero‑shot / few‑shot / many‑shot 直接做任务. 开启 zero/few-shot 时代.
这类能力不是通过显式训练得到，而是由模型容量和数据规模增长自发涌现.
GPT-2 没有“训练时的指令微调”，但有“推理时的 Prompt 工程”.

3. GPT-3 (2020)

全面验证 Scaling Laws，奠定通用语言模型的商业化基础，是 ChatGPT 的技术前身.
背后使用了大规模分布式训练（pipeline 并行 + tensor 并行 + 混合精度）才能跑通.
依然没有基于 Prompt 的训练. 但是, 由于网络原始语料里天然包含了很多类 prompt 的模式：

问答网页（Quora、StackExchange）
FAQ文档
多轮论坛对话
翻译示例（双语文本）
描述性任务说明等

这些在无监督学习下被模型学到，所以才在 in‑context learning 时能“举一反三”。

4. ChatGPT (2022)

上文的 gpt-3 是基础语言大模型, 目标是通用, 并没有经过专门的对话训练. 所以通过指令微调 + RLHF 来改进对话能力, 得到了InstructGPT, 然后产品化为Chat GPT, 火爆出圈, 为百姓所知.

4.1 与 Instruct GPT, GPT-3.5 的关系

InstructGPT 特指 2022 年 3 月发布的模型（对应 API 中的 text-davinci-002）
GPT-3.5, 是这一时期系列模型的统称，包括 text-davinci-002、text-davinci-003、gpt-3.5-turbo 等.
而ChatGPT, 是 GPT-3.5 的产品化与服务.

4.2 指令微调-SFT

研究人员收集高质量的人类编写的问答数据，用这些"标准答案"直接让模型直接学会遵循指令.
Q1: gpt-2 弃用了微调, 为何此时再次引入?
A: gpt-2 中 OpenAI 刻意不进行微调，以探索零样本学习潜能. 而 chat-gpt 的应用场景是对话, 所以需要专门微调.

Q2: 对齐 (alignment) 人类偏好指的是什么?
A: 大模型本质上是统计模式匹配器，它没有内在目标或道德感, 所以需要对齐( AIAlignment)人类偏好, 比如 1) 回答要简洁有信息, 不能空泛无帮助; 2) 无害, 比如用户问怎么造假, 犯罪要拒绝回答; 3) 进行更自然的多轮对话.

Q3: 既然有了 SFT, 为何还需要 RL来再次 “对齐(alignment)” ?
A: SFT 数据集来自优秀的问答数据, 它示范了 “什么是好的”，却很难把所有 “不好的” 情况都覆盖到。
另一个关键差异在于探索能力。SFT 是被动模仿，模型被限制在训练数据的分布内，很难产生比示范数据更好的回答。RLHF 则是一种主动优化，模型可以在策略空间中探索，不断尝试新的生成方式，只要奖励模型认为它更好，就会被强化.

4.2 RLHF alignment

基于人类反馈的强化学习, Reinforcement Learning with Human Feedback.
方法为: 人类对模型输出排序 → 训练奖励模型（Reward Model） → 用 PPO 优化. 展开来说：

1.让模型对同一个问题生成多个回答。
2.人类标注员对这些回答的质量进行排序。
3.利用这些排序数据训练一个“奖励模型”来判断回答的好坏。
4.最后用这个奖励模型作为反馈，通过强化学习算法（如 PPO）来微调 ChatGPT 模型本身。

4.2.1 奖励模型 RM

Q: reward 需要来自环境反馈, 为什么 RLHF 中用奖励模型替代环境反馈?
A: 传统强化学习中，环境反馈往往是规则清晰的——比如机器人是否走出迷宫, 比如下围棋的输赢。
但语言生成任务显著不同, 并没有一个现成的 “环境” 能判断一段回答好不好, 因为它涉及事实准确性、逻辑连贯性、语气友好度等多个维度，这些维度高度主观，无法简单地写成一个可自动计算的规则或公式。
但人类是可以对同一问题的多个答案作比较的, 所以引入奖励模型, 让它学会模仿人类的判断标准, 充当了一个"虚拟环境".

模型架构
todo.
数据集
人类标注的问答内容. 同一个 prompt 下对应多条回答(例如5条, 编号a-e), 人类排好了序(比如 a>b>d>e>c), 那么对于 RM 来说, 会组合所有的有序对（all possible pairs）, 就是C 5 2 = 5 ∗ 4 2 = 10 C_5^2=\frac{5*4}2=10C52=25∗4=10条.
计算loss
奖励模型的核心损失函数基于Bradley-Terry 模型，本质上是一个对比损失：
L = − E ( x , y w , y l ) ∼ D [ log ⁡ σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ] \mathcal{L} = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma\left(r_\theta(x, y_w) - r_\theta(x, y_l)\right) \right]L=−E(x,yw,yl)∼D[logσ(rθ(x,yw)−rθ(x,yl))]
loss 推导详见参考[1], 其中：

x xx是输入 prompt
y w y_wyw是被人类偏好的回答（winning）
y l y_lyl是不被偏好的回答（losing）
r θ ( x , y ) r_\theta(x, y)rθ(x,y)是奖励模型对回答的打分
σ \sigmaσ是 sigmoid 函数

Q: RM 训练时优化的是相对次序，但用途却是标量打分, 不矛盾么?
A: 这两个层面并不矛盾, Bradley-Terry 模型恰好提供了这座桥梁。
BT 模型假设：每对比较中，“A 优于 B” 的概率由两者潜在实力的比值决定。当我们把潜在实力表示为exp ⁡ ( r ) \exp(r)exp(r)时，就得到：
P ( y w ≻ y l ) = σ ( r w − r l ) P(y_w \succ y_l) = \sigma(r_w - r_l)P(yw≻yl)=σ(rw−rl)
注意这个公式的结构：

左边是可观测的人类偏好（相对关系）
右边是两个标量分数的差值（绝对分数的相对运算）

损失函数让模型去拟合左边的观测值，但梯度是直接作用在右边的标量分数上的：
∂ L ∂ r w = − σ ( − Δ ) , ∂ L ∂ r l = σ ( − Δ ) \frac{\partial \mathcal{L}}{\partial r_w} = -\sigma(-\Delta), \quad \frac{\partial \mathcal{L}}{\partial r_l} = \sigma(-\Delta)∂rw∂L=−σ(−Δ),∂rl∂L=σ(−Δ)
其中Δ = r w − r l \Delta = r_w - r_lΔ=rw−rl。
这意味着：

如果人类说y w y_wyw更好，模型会被推动去单独提高r w r_wrw的数值
同时被推动去单独降低r l r_lrl的数值

经过大量成对样本的累积训练，模型学会的标量分数自然具备了这样的性质：人类偏好的回答分数高，不偏好的分数低。

4.2.2 PPO 流程

策略模型 π_θ. 从 SFT 模型初始化，是唯一需要更新的模型.
参考模型 π_ref. 固定的 SFT 模型，用来计算 KL 散度.
奖励模型 r_φ. 固定不动，负责打分.
价值模型 V_ψ. 也叫 critic，用于估计优势函数.

由于文本生成是一个序列决策过程，这个最终分数通常被放在序列的最后一个 token 上作为回报，中间 token 的即时奖励设为零.
价值模型 V_ψ 会对生成序列中每个位置的状态进行价值估计，结合奖励模型的终端分数，通过 GAE（Generalized Advantage Estimation）计算出每个 token 对应的优势值

5. GPT-4 (2023)

具备多模态能力, 支持图像输入, 首次在多个专业领域（法律、医学、编程）达到或接近人类专家水平。
具备思维链能力, 但需通过 prompt 触发.

Q: 什么是“思维链”（Chain-of-Thought, CoT）？
A: 定义：让模型在给出最终答案前，先输出中间推理步骤（如“首先…然后…因此…”）。
效果：显著提升模型在数学、逻辑、常识推理等复杂任务上的准确率。

6. openai o1 (2024)

原生深度推理模型. 没有多模态(纯文本), 有较弱的对齐 alignment (更关注正确性).
原生是指无需用户提示, 内部生成并优化思维链.
训练范式与 gpt 不同, o1 中 RL 用于优化推理过程本身（如奖励正确中间步骤), 而不是与人类偏好对齐.

gpt 与 o 系列并行发展, 分别侧重于通用和深度推理, 其训练范式和推理成本均有不同.

7. GPT-5 (2025.08)

已经推出, 详见: https://openai.com/zh-Hans-CN/index/introducing-gpt-5/

8. Sora (视频生成模型)

sora, 视频生成模型,文本/图像/视频 → 视频.
命名来自日语中 “天空 (そら)” 一词的含义与发音. OpenAI 在其官方发布中明确解释了这一命名含义：

“ We named our model Sora after the Japanese word for ‘sky’ — a boundless canvas where anything is possible.”

技术路线
它的技术范式不同于 gpt, 而是扩散 Transformer（Diffusion Transformer, DiT).
难点是: 物理一致性建模、长视频连贯性.
发布节奏
见 openai 官网: https://openai.com/zh-Hans-CN/index/sora-2/

上线前需要经过内部测试 (Red Teaming) 阶段.
Q: 什么是 Red Teaming(红队测试)?
A: 在 ai安全领域, 邀请伦理学者和领域专家, 像“黑客” 一样，刻意尝试诱导模型产生有害、虚假、偏见、违法或危险内容, 修复潜在风险，避免上线后造成社会危害.