news 2026/5/11 13:21:15

GPT 1到5代及chat系列的演进笔记

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPT 1到5代及chat系列的演进笔记

GPT 发展脉络

  1. gpt-1(2018): 提出了 “预训练 + 微调”(Pretrain-Finetune)的范式, 证明了 transformers 架构下用更多的参数和语料可以带来更强的泛化能力, 下游训练变得容易.
  2. gpt-2(2019): 不再 fine-tune, 实现了 zero/few shot 的能力. 因为依靠数据集和模型规模的提升, 可自行 “涌现” 高级能力.
  3. gpt-3(2020): 进一步验证 scaling-law, 模型大到必须分布式训练.
  4. chat-gpt(2022): 加入 指令微调+基于人类反馈的强化学习, 适用 “对话” 场景. 是 Instruct gpt 模型的市场化产品.
  5. gpt4(2023): 加入图像多模态; 首次在多个任务上接近人类专家水平.
  6. openai-o1(2024): 原生深度推理模型, 在 解数学题, 代码能力 中达到人类专家水平. 但速度较慢(10几秒), 能耗较高.
  7. gpt-5(2025.08), 在智能水平上实现了重大飞跃,其在编程、数学、写作、医疗、视觉感知等多个领域均展现出领先的性能。

1. GPT-1 (2018)

transformers decoder-only 架构, next token 预测. 预训练之后做下游任务的微调.
标题是Improving Language Understanding by Generative Pre-Training.
发表于 2018.02, 比 bert(发布于 2018.10) 早了半年.

1.1 动机

  • 困难:NLU 任务是多样的, 有 {textual entailment, question answering, semantic similarity assessment, document classification} 等. 对这些任务收集足够多的大规模标注数据很困难.

  • 解法: 用易得的un-labeled 的语料库做 生成式的预训练. 然后仅用少许 特定任务的标注数据作 微调训练, 就能在 NLU 的基准测试中取得佳绩.

1.2 框架

Unsupervised pre-training

next-token 预测.


数据集是 BooksCorpus(书籍, 有长文本) 和 1B Word Benchmark.

Supervised fine-tuning

冻结预训练好的 transformers 网络权重, 只训练 sft 引入的Wy特殊分割 token的 emb.
任务是多样的, 但 预训练网络 只能接受有序的 text, 所以要作转换. 转换方式见下图. 确实不如 后续工作的 prompt 优雅.

1.3 模型细节

  • a 12-layer decoder-only transformer with masked self-attention heads (768 dimensional states and 12 attention heads).
  • For the position-wise feed-forward networks, we used 3072 dimensional inner states.
  • We used the Adam optimization scheme [27] with a max learning rate of 2.5e-4.
  • We used a bytepair encoding (BPE) vocabulary with 40,000 merges

2. GPT-2 (2019)

参数量达到1.5B, 语料库规模提升至10倍. 纯大规模无监督预训练, 利用 zero‑shot / few‑shot / many‑shot 直接做任务. 开启 zero/few-shot 时代.
这类能力不是通过显式训练得到,而是由模型容量和数据规模增长自发涌现.
GPT-2 没有“训练时的指令微调”,但有“推理时的 Prompt 工程”.

3. GPT-3 (2020)

全面验证 Scaling Laws,奠定通用语言模型的商业化基础,是 ChatGPT 的技术前身.
背后使用了 大规模分布式训练(pipeline 并行 + tensor 并行 + 混合精度)才能跑通.
依然没有基于 Prompt 的训练. 但是, 由于网络原始语料里天然包含了很多 类 prompt 的模式:

问答网页(Quora、StackExchange)
FAQ文档
多轮论坛对话
翻译示例(双语文本)
描述性任务说明等

这些在无监督学习下被模型学到,所以才在 in‑context learning 时能“举一反三”。

4. ChatGPT (2022)

上文的 gpt-3 是基础语言大模型, 目标是通用, 并没有经过专门的对话训练. 所以通过 指令微调 + RLHF 来改进对话能力, 得到了InstructGPT, 然后产品化为Chat GPT, 火爆出圈, 为百姓所知.

4.1 与 Instruct GPT, GPT-3.5 的关系

InstructGPT 特指 2022 年 3 月发布的模型(对应 API 中的 text-davinci-002)
GPT-3.5, 是这一时期系列模型的统称,包括 text-davinci-002、text-davinci-003、gpt-3.5-turbo 等.
ChatGPT, 是 GPT-3.5 的产品化与服务.

4.2 指令微调-SFT

研究人员收集高质量的人类编写的问答数据,用这些"标准答案"直接让模型直接学会遵循指令.
Q1: gpt-2 弃用了微调, 为何此时再次引入?
A: gpt-2 中 OpenAI 刻意不进行微调,以探索 零样本学习 潜能. 而 chat-gpt 的应用场景是对话, 所以需要专门微调.

Q2: 对齐 (alignment) 人类偏好指的是什么?
A: 大模型本质上是统计模式匹配器,它没有内在目标或道德感, 所以需要对齐( AIAlignment)人类偏好, 比如 1) 回答要简洁有信息, 不能空泛无帮助; 2) 无害, 比如用户问怎么造假, 犯罪 要拒绝回答; 3) 进行更自然的多轮对话.

Q3: 既然有了 SFT, 为何还需要 RL来再次 “对齐(alignment)” ?
A: SFT 数据集来自优秀的问答数据, 它示范了 “什么是好的”,却很难把所有 “不好的” 情况都覆盖到。
另一个关键差异在于探索能力。SFT 是被动模仿,模型被限制在训练数据的分布内,很难产生比示范数据更好的回答。RLHF 则是一种主动优化,模型可以在策略空间中探索,不断尝试新的生成方式,只要奖励模型认为它更好,就会被强化.

4.2 RLHF alignment

基于人类反馈的强化学习, Reinforcement Learning with Human Feedback.
方法为: 人类对模型输出排序 → 训练 奖励模型(Reward Model) → 用 PPO 优化. 展开来说:

1.让模型对同一个问题生成多个回答。
2.人类标注员对这些回答的质量进行排序。
3.利用这些排序数据训练一个“奖励模型”来判断回答的好坏。
4.最后用这个奖励模型作为反馈,通过强化学习算法(如 PPO)来微调 ChatGPT 模型本身。

4.2.1 奖励模型 RM

Q: reward 需要来自环境反馈, 为什么 RLHF 中用奖励模型替代环境反馈?
A: 传统强化学习中,环境反馈往往是规则清晰的——比如机器人是否走出迷宫, 比如下围棋的输赢。
但语言生成任务显著不同, 并没有一个现成的 “环境” 能判断一段回答好不好, 因为它涉及 事实准确性、逻辑连贯性、语气友好度等多个维度,这些维度高度主观,无法简单地写成一个可自动计算的规则或公式。
但人类是可以对同一问题的多个答案作比较的, 所以引入奖励模型, 让它学会模仿人类的判断标准, 充当了一个"虚拟环境".

  • 模型架构
    todo.
  • 数据集
    人类标注的问答内容. 同一个 prompt 下对应多条回答(例如5条, 编号a-e), 人类排好了序(比如 a>b>d>e>c), 那么对于 RM 来说, 会组合所有的有序对(all possible pairs), 就是C 5 2 = 5 ∗ 4 2 = 10 C_5^2=\frac{5*4}2=10C52=254=10条.
  • 计算loss
    奖励模型的核心损失函数基于Bradley-Terry 模型,本质上是一个对比损失:
    L = − E ( x , y w , y l ) ∼ D [ log ⁡ σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ] \mathcal{L} = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma\left(r_\theta(x, y_w) - r_\theta(x, y_l)\right) \right]L=E(x,yw,yl)D[logσ(rθ(x,yw)rθ(x,yl))]
    loss 推导详见参考[1], 其中:
  • x xx是输入 prompt
  • y w y_wyw是被人类偏好的回答(winning)
  • y l y_lyl是不被偏好的回答(losing)
  • r θ ( x , y ) r_\theta(x, y)rθ(x,y)是奖励模型对回答的打分
  • σ \sigmaσ是 sigmoid 函数

Q: RM 训练时优化的是相对次序,但用途却是标量打分, 不矛盾么?
A: 这两个层面并不矛盾, Bradley-Terry 模型恰好提供了这座桥梁。
BT 模型假设:每对比较中,“A 优于 B” 的概率由两者潜在实力的比值决定。当我们把潜在实力表示为exp ⁡ ( r ) \exp(r)exp(r)时,就得到:
P ( y w ≻ y l ) = σ ( r w − r l ) P(y_w \succ y_l) = \sigma(r_w - r_l)P(ywyl)=σ(rwrl)
注意这个公式的结构:

  • 左边是可观测的人类偏好(相对关系)
  • 右边是两个标量分数的差值(绝对分数的相对运算)

损失函数让模型去拟合左边的观测值,但梯度是直接作用在右边的标量分数上的
∂ L ∂ r w = − σ ( − Δ ) , ∂ L ∂ r l = σ ( − Δ ) \frac{\partial \mathcal{L}}{\partial r_w} = -\sigma(-\Delta), \quad \frac{\partial \mathcal{L}}{\partial r_l} = \sigma(-\Delta)rwL=σ(Δ),rlL=σ(Δ)
其中Δ = r w − r l \Delta = r_w - r_lΔ=rwrl
这意味着:

  • 如果人类说y w y_wyw更好,模型会被推动去单独提高r w r_wrw的数值
  • 同时被推动去单独降低r l r_lrl的数值

经过大量成对样本的累积训练,模型学会的标量分数自然具备了这样的性质:人类偏好的回答分数高,不偏好的分数低。

4.2.2 PPO 流程

  • 策略模型 π_θ. 从 SFT 模型初始化,是唯一需要更新的模型.
  • 参考模型 π_ref. 固定的 SFT 模型,用来计算 KL 散度.
  • 奖励模型 r_φ. 固定不动,负责打分.
  • 价值模型 V_ψ. 也叫 critic,用于估计优势函数.

由于文本生成是一个序列决策过程,这个最终分数通常被放在序列的最后一个 token 上作为回报,中间 token 的即时奖励设为零.
价值模型 V_ψ 会对生成序列中每个位置的状态进行价值估计,结合奖励模型的终端分数,通过 GAE(Generalized Advantage Estimation)计算出每个 token 对应的优势值

5. GPT-4 (2023)

具备多模态能力, 支持图像输入, 首次在多个专业领域(法律、医学、编程)达到或接近人类专家水平。
具备思维链能力, 但需通过 prompt 触发.

Q: 什么是“思维链”(Chain-of-Thought, CoT)?
A: 定义:让模型在给出最终答案前,先输出中间推理步骤(如“首先…然后…因此…”)。
效果:显著提升模型在数学、逻辑、常识推理等复杂任务上的准确率。

6. openai o1 (2024)

原生深度推理模型. 没有多模态(纯文本), 有较弱的对齐 alignment (更关注正确性).
原生是指 无需用户提示, 内部生成并优化思维链.
训练范式与 gpt 不同, o1 中 RL 用于优化推理过程本身(如奖励正确中间步骤), 而不是与人类偏好对齐.

gpt 与 o 系列并行发展, 分别侧重于 通用 和 深度推理, 其训练范式和推理成本均有不同.

7. GPT-5 (2025.08)

已经推出, 详见: https://openai.com/zh-Hans-CN/index/introducing-gpt-5/

8. Sora (视频生成模型)

sora, 视频生成模型,文本/图像/视频 → 视频.
命名来自日语中 “天空 (そら)” 一词的含义与发音. OpenAI 在其官方发布中明确解释了这一命名含义:

“ We named our model Sora after the Japanese word for ‘sky’ — a boundless canvas where anything is possible.”

技术路线
它的技术范式不同于 gpt, 而是扩散 Transformer(Diffusion Transformer, DiT).
难点是: 物理一致性建模、长视频连贯性.
发布节奏
见 openai 官网: https://openai.com/zh-Hans-CN/index/sora-2/

上线前需要经过内部测试 (Red Teaming) 阶段.
Q: 什么是 Red Teaming(红队测试)?
A: 在 ai安全 领域, 邀请 伦理学者和领域专家, 像“黑客” 一样,刻意尝试诱导模型产生有害、虚假、偏见、违法或危险内容, 修复潜在风险,避免上线后造成社会危害.

参考

1.常用损失函数及tf实现, pair-wise loss 推导 部分

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 13:19:18

告别手速困扰!League-Toolkit极地大乱斗智能抢英雄终极指南

告别手速困扰!League-Toolkit极地大乱斗智能抢英雄终极指南 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否曾在极地大乱斗中…

作者头像 李华
网站建设 2026/5/11 13:18:55

2026年安装Hermes Agent/OpenClaw配置Token Plan最简单方法

2026年安装Hermes Agent/OpenClaw配置Token Plan最简单方法。OpenClaw作为阿里云生态下新一代的开源AI自动化代理平台,曾用名Moltbot/Clawdbot,凭借“自然语言交互自动化任务执行大模型智能决策”的核心能力,正在重构个人与企业的工作效率边界…

作者头像 李华
网站建设 2026/5/11 13:08:35

Ascend C __hmax函数API文档

__hmax 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/can…

作者头像 李华
网站建设 2026/5/11 13:07:40

Whisper Web应用部署教程:构建自己的语音转录平台

Whisper Web应用部署教程:构建自己的语音转录平台 【免费下载链接】awesome-whisper 🔊 Awesome list for Whisper — an open-source AI-powered speech recognition system developed by OpenAI 项目地址: https://gitcode.com/gh_mirrors/aw/awesom…

作者头像 李华