news 2026/5/23 21:05:52

LLM 中的自回归模型与非自回归模型:GPT 和 BERT 的区别

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLM 中的自回归模型与非自回归模型:GPT 和 BERT 的区别

一、自回归模型

自回归模型(Autoregressive Model)
是一种“基于已经生成的内容,逐步预测下一个 token”的模型。

GPT、ChatGPT、LLM 聊天模型,全都是自回归模型


回归(Regression)

用已知信息,预测一个未知值

自回归(Auto + Regression)

用“自己已经生成的结果”,继续预测后面的结果

也就是说:

  • 模型的输入
  • 会不断包含模型刚刚输出的内容

1. GPT 的工作方式

GPT 的本质是不断做这件事:

给定前面的 token → 预测下一个 token → 把这个 token 接上 → 再预测下一个 循环到结束

假设句子是: “我 喜欢 吃 苹果”

自回归生成过程是这样的:

1️⃣ 输入:

预测:

喜欢

2️⃣ 输入:

我 喜欢

预测:

3️⃣ 输入:

我 喜欢 吃

预测:

苹果

4️⃣ 输入:

我 喜欢 吃 苹果

预测:

<结束>

每一步都依赖之前生成的内容

2. 为什么“流式输出”只能用自回归模型?

因为:

  • 模型本身就是一步一步生成
  • 每一步都能立刻返回一个 token

所以:

token 1 → token 2 → token 3 → ...

前端才能:

  • 边收边渲染
  • 像 ChatGPT 一样“打字”

二、非自回归模型

Google 在 2018 年提出的非自回归模型 BERT,是一个基于 Transformer Encoder 的预训练语言模型。它的核心目标是理解文本,而不是生成文本

1. 自回归 vs 非自回归

对比点自回归模型(GPT)非自回归模型(BERT)
是否逐 token 生成✅ 是❌ 否
是否依赖已生成内容✅ 是❌ 否
是否能流式输出
是否适合聊天
主要能力生成理解

**模型在预测时,一次性“看完整个句子”,而不是一个字一个字

2.BERT 的核心结构:Transformer Encoder

Transformer Encoder是 Google 在 2017 年发表的经典论文《Attention Is All You Need》中提出的 Transformer 模型的一半(前半部分)。
简单来说,它的作用是“理解”输入序列。它接收一串文本(Token 序列),通过复杂的注意力机制,输出这串文本中每个词的上下文相关的向量表示
比如 “我吃了一个苹果”和“苹果发布了新手机”中,两个“苹果”对应的输出向量是完全不同的(前者包含水果的语义,后者包含科技公司的语义)

BERT 只使用了 Transformer 的一半结构:

Transformer ├── Encoder ✅(BERT 使用) └── Decoder ❌(BERT 不用)

Encoder 的特点:

  • 可以同时看到左右上下文
  • 使用双向 Attention
  • 更适合做「理解型任务」

📌 GPT 用的是Decoder(单向)
📌 BERT 用的是Encoder(双向)

3. BERT 为什么是「双向理解」?

来看一个经典例子:

“我昨天去银行存钱”

这里的“银行”是:

  • 金融机构?
  • 河岸?

GPT(自回归)的问题

GPT 在生成到「银行」时:

  • 还没看到后面的“存钱”
  • 只能根据左侧上下文猜

BERT 在理解时:

  • 同时看到「我 / 昨天 / 去 / 银行 / 存钱」
  • 利用前后语义,准确判断

📌 这就是Bidirectional(双向)的意义

4. BERT 是如何训练的?

1. Masked Language Model(MLM)

BERT 的核心训练方式:

原句:我 喜欢 吃 苹果 处理:我 喜欢 [MASK] 苹果 目标:预测 [MASK] 是 “吃”

特点:

  • 不是预测下一个词
  • 而是预测“被遮住的词”

2. Next Sentence Prediction(NSP)

让模型判断:

句子 B 是否是句子 A 的下一句?

用于提升:

  • 句间关系理解
  • 问答 / 推理能力

5. 为什么 BERT 不能用来聊天?

BERT 不是用来“生成文本”的,而是用来“理解文本”的

具体原因:

1️⃣非自回归

  • 无法逐 token 生成
  • 没有“下一步预测”机制

2️⃣没有 Decoder

  • 没有生成头
  • 无法自然续写文本

3️⃣训练目标不同

  • BERT 训练的是「填空」
  • GPT 训练的是「续写」
模型定位
BERT语言理解引擎
GPT语言生成引擎
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/12 6:27:26

15.电路板插着下载器

一定注意一个现象&#xff1a;stlink如果没有连接电脑,那就不能连接板子,会导致板子一直在复位状态。板卡是否运行&#xff0c;最好有个状态灯。周期性翻转&#xff0c;则板卡运行正常。

作者头像 李华
网站建设 2026/5/19 23:55:14

【Java毕设全套源码+文档】基于springboot的农产品电商平台设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/5/12 0:30:11

客户已读消息却不回复?他可能正在等待你“替他做决定”

制造业销售人员最为煎熬的时刻&#xff0c;莫过于看到消息显示“已读”&#xff0c;但后续却像石沉大海一样没有任何回应&#xff0c;很多人觉得客户是没有需求、不信任自己&#xff0c;或者正在和其他供应商比价&#xff0c;其实更深层次的原因是&#xff1a;客户正在犹豫&…

作者头像 李华
网站建设 2026/5/22 8:12:43

校园跑腿外卖一站式:源码解锁便捷新体验

以下围绕“校园跑腿外卖一站式&#xff1a;源码解锁便捷新体验”这一主题&#xff0c;从核心价值、源码功能模块、技术实现方案、部署与运营策略四个方面展开详细阐述&#xff1a;一、校园跑腿外卖一站式服务的核心价值精准解决校园痛点&#xff1a;满足学生“足不出户”获取外…

作者头像 李华
网站建设 2026/5/22 2:10:22

养老护理新助手:陪浴陪诊小程序APP源码

以下是一套基于JAVA技术的养老护理陪浴陪诊小程序APP的源码核心架构与功能解析&#xff0c;该系统通过技术整合与创新&#xff0c;为老年人提供便捷、安全、贴心的护理服务&#xff1a;一、技术架构后端服务&#xff1a;Spring Boot&#xff1a;提供快速开发、易于部署和扩展的…

作者头像 李华