一篇文章讲清大语言模型发展史-开发者社区

2017年的某个夏天，Google内部一群搞翻译的工程师，发了一篇论文。标题很狂，叫《Attention Is All You Need》。意思很明确：我们把RNN彻底扔了，只用注意力机制，翻译效果反而更好。

这篇论文后来被叫做Transformers。它在当时只是一篇机器翻译论文。但回头看，它更像是大语言模型时代的操作系统——所有后来发生的故事，都在这个框架上展开。

从2017到今天，不过八年。八年间，这个行业经历了从学术论文到万亿美元市场的跃迁，经历了OpenAI从无名小卒到顶流明星的逆袭，经历了开源与闭源的路线之争，经历了从“能说话”到“能办事”的能力跃迁。

这篇文章想做一件事：把大语言模型这条线，从一堆散乱的名词，整理成一条清楚的主线。不是技术名词年表，而是讲清楚那几次关键转向——模型怎么从“预测下一个词”走到通用智能入口，规模为什么成了核心变量，ChatGPT到底改变了什么，开源模型为什么突然追上来，推理模型又意味着什么。

我们开始。

一、架构的胜利：Transformers来了

要理解后来发生的一切，得先回到2017年，理解Transformers为什么重要。

那一年，Google翻译已经在用神经网络了，但用的是RNN——一种按顺序处理文本的模型。读一句话，得从左到右一个词一个词滚：第一遍记住"我"，第二遍合并"喜欢"，第三遍合并"北京"，一路滚到"烤鸭"。这个过程有两个毛病：

第一，串行。一个词没处理完，下一个词动不了。GPU有几千个计算核心，但RNN只能用到其中一个。

第二，信号衰减。等滚到"烤鸭"时，"我"这个词已经被压缩了五六次，早就模糊了。

Google翻译组有八个人决定换思路。2017年6月，他们发表了那篇后来被称为"原子弹级论文"的《Attention Is All You Need》。核心想法很简单：不要串行了，让每个词同时看所有词。

怎么做到？用注意力机制。

举个例子，"我喜欢北京的烤鸭"这句话里，"烤鸭"两个字单独看就是"烤的鸭子"，但在这句话里它特指"北京烤鸭"。模型怎么知道？让"烤鸭"给每个词打分：离"北京"最近，给高分；离"喜欢"中等；离"我"和"的"几乎为零。按这个比例把所有词的信息吸收过来，"烤鸭"这个词的向量就被改写了——它不再只是"烤的鸭子"，而是"这句话里那只我喜欢的北京烤鸭"。

这就是注意力。六个词同时各做一遍，一轮跑完，每个词都拿到了"在这句话里的具体含义"。没有串行，没有压缩，没有衰减。

而且这六个词的计算可以打包成一次大矩阵乘法，扔给GPU并行完成。

这就是"Attention Is All You Need"的意思：把RNN的循环结构整个扔掉，问题反而都解决了。

二、两条路线：BERT和GPT的分叉

Transformers最初是为翻译设计的，分两半：encoder负责读原文，decoder负责写译文。但2018年之后，大家发现这两半可以拆开，各走各的路。

Google走的是encoder路线，做出了BERT。

BERT的全称是"Bidirectional Encoder Representations from Transformers"。重点在两个词：encoder——只用Transformer的左边；bidirectional——读一个词时，可以同时看左边和右边。

BERT的训练方式像完形填空。给一段话，随机遮住一些词，让模型猜被遮住的是什么。比如"我喜欢北京的[MASK]"，模型要从"我、喜欢、北京、的"这些上下文里猜出"烤鸭"。

BERT解决的是NLP里最值钱的问题：读懂一段话。分类、问答、实体识别、语义匹配——这些任务不需要模型生成新文本，更需要模型把整段话看明白。

BERT出来之后，学术界主流认为这条路是对的：理解和生成是两件事，应该分开设计。BERT负责"读懂"，GPT负责"续写"。

OpenAI走的是decoder路线，做出了GPT。

GPT的全称是"Generative Pre-trained Transformer"。意思很直接：先用海量文本训练一个会"续写"的Transformer，再看这个续写能力能不能迁移到各种任务上。

训练目标很简单：给你前N个词，猜第N+1个词。

这个目标比BERT的完形填空难。BERT两边都给你，是选择题；GPT只能看左边猜右边，是开放题。但OpenAI赌的是：能把开放题做好，做选择题是顺带的事。

2018年6月，GPT-1发布，1.17亿参数。2019年2月，GPT-2发布，15亿参数。

从benchmark看，GPT-2打不过同期BERT。2018年10月BERT一出来就把GPT-1压过去了。Facebook的RoBERTa（优化版BERT，只有3.55亿参数）在GLUE、SQuAD这些榜单上继续压着GPT-2。参数量大四倍，分数反而更低。

但GPT-2有两件事让OpenAI看到另一种可能：

第一，文本生成质量肉眼可见地强。能写出连贯的长段落，风格切换自如，能以假乱真。

第二，它展示了"一个模型能做很多事"的迹象。没有专门训练，却在问答、摘要、翻译上表现出一定能力。

这说明一件事：BERT那种"每个任务单独微调"的路线，可能不是终点。"预测下一个词"这个简单目标，如果规模够大，可能会长出通用能力。

OpenAI内部有人想赌这件事。

三、GPT-3的赌注：大力出奇迹

OpenAI内部有一群人想赌一件跟主流认知不同的事：如果模型大到上千亿参数，光"猜下一个词"这一招会不会自己长出新能力？

这个赌注的核心信徒是首席科学家Ilya Sutskever。他从AlexNet那个年代就坚信：深度学习的进步主要靠规模，算法创新次要。

技术上给这个赌注提供依据的，是2020年1月Jared Kaplan等人发表的《Scaling Laws for Neural Language Models》。这篇论文证明：模型loss会随参数、数据、算力按可预测的幂律下降。换句话说，多大算力换多少能力，事前可以算出来。

这给了OpenAI押1750亿参数这个具体数字的底气。

但工程上不是一步到位的。GPT-1几张GPU就够，GPT-2开始吃力，GPT-3要冲到1750亿参数，之前那套训练工具链根本顶不住。

算一笔账：1750亿参数光存权重就要约350GB（用16位浮点），加上反向传播的中间结果和优化器状态，实际需要2到3TB内存。当时NVIDIA最强的V100每张才32GB显存，单卡根本装不下。

解决它需要三套工程突破：

第一关：模型放不下一张卡。 NVIDIA 2019年9月发的Megatron-LM给出答案：张量并行。把单个权重矩阵切成N份，N张GPU各算一块再汇总。像一张大试卷撕成4份让4个人同时写。

第二关：层数堆起来还是装不下。 Google 2018年底发的GPipe给出答案：流水线并行。不同层放到不同GPU，数据像流水线一样从第一张卡流到最后一张。

第三关：优化器状态吃天量内存。微软2019年发的ZeRO给出答案：优化器状态、梯度、参数全部按GPU数量切开，每张卡只存1/N，需要时临时通信交换。N张卡的显存合起来变成一个虚拟大显存。

三招组合起来叫"3D并行"。少任何一个都不行：光张量并行96层叠不下；光流水线单层装不下；不上ZeRO光优化器状态就溢出。

硬件这边，微软在Azure上搭了一台约一万张V100 GPU的超级计算机，2020年5月公布，是当时全球前五的超算之一。

2020年5月28日，OpenAI发表GPT-3。

四、范式转移：in-context learning

GPT-3的核心发现一句话讲完：模型大到一定程度，新能力会自己冒出来。

它展示的最关键能力叫in-context learning（上下文学习）。模型不必为每个任务专门微调，只要在prompt里给两三个示范，它就能照着做这个任务。

给两三个示范就照做的叫few-shot；什么示范都不给直接做的叫zero-shot。

效果有多炸？论文里几个结果让人下巴掉下来：

GPT-3在SuperGLUE、TriviaQA这些benchmark上的few-shot分数，跟专门fine-tune过的模型差不多甚至更好。它能写出像样的新闻文章，人类读者区分真假的识别率只比扔硬币高一点。它能从自然语言描述生成简单代码、做基础算术、回答一些没见过的常识题。

这种能力在小模型里完全看不到。 GPT-2（15亿参数）也能续写，但给它两三个示范它学不会照做。GPT-3（1750亿参数）烧到那个临界值，新行为整个浮上来。

这是发生了相变，像水烧到100度才沸腾。

但更大的影响在工作方式层面。GPT-3触发了整个NLP行业从老范式到新范式的整体转移。

老范式（2018-2020）：预训练一个模型，针对每个任务收集标注数据，微调。每个任务单独标数据、单独微调、单独部署。一家公司想做客服分类+自动翻译+文档摘要+内容审核，就得养四个不同的模型。

新范式：模型不为任何具体任务训练，只学一件事：预测下一个词。要它做翻译就写prompt："把下面英文翻成中文：Hello world →"；要它做情感分析就写："判断这段评论的情绪是正面还是负面：[评论] →"。

从"训练时绑定任务"到"使用时绑定任务"。后来Stanford HAI在2021年专门发了一篇论文给这套范式命名，叫foundation model（基础模型）。

BERT那派"理解和生成必须分开"的理论判断被证伪了。从GPT-3之后，所有前沿大模型——GPT、Claude、Gemini、LLaMA、DeepSeek、Qwen——都是decoder-only Transformer的后代。

当然，BERT没有死。它在产业界仍然是分类、检索、向量embedding这些窄场景的主力。Google搜索后端、文档分类系统、电商推荐里的语义匹配，今天还在跑BERT派的模型。它们小、快、便宜，专门做一件事比叫一个千亿大模型来做划算得多。

但"前沿AI"这条赛道的主线，从GPT-3起彻底换了。

五、能力不等于好用：RLHF登场

GPT-3发完，OpenAI在2020年6月把它做成商业API上线。很贵：起步价0.06美元1000 token。一年里上百家公司围着这个API做产品：Jasper做营销文案，AI Dungeon做交互小说，Replika做陪伴聊天。

但绝大多数尝试很快撞墙。

模型什么都会，但什么都不听话。你让它写一份正经报告，它会扯到段子上；你让它客观回答问题，它会编造数据；你问它一个敏感话题，它会给你一段不合适的回答。

最典型的事故是AI Dungeon：2020年7月接入GPT-3后体验质变，但很快出现大量不可控生成（露骨、暴力、儿童内容）。OpenAI在2021年4月威胁切断API访问，逼着AI Dungeon加各种过滤器，社区随后流失大半。

这暴露了一个此前没被认真理论化的鸿沟：模型"知道什么"和模型"愿意做什么"之间，隔着一层。光把模型变大不够，必须再做一层"对齐"。圈里管这个叫alignment problem。

GPT-3之后的两年多，OpenAI主要做的事，就是把这个对齐层补上。

转折点是2022年3月，OpenAI发表InstructGPT论文，给出了RLHF（Reinforcement Learning from Human Feedback）的标准三段论：

第一步：监督微调（SFT）。雇40多个标注员，针对几万条真实用户prompt亲手写出"理想回答"。拿这批数据微调GPT-3。模型第一次学到"什么样的回答符合期待"。

第二步：训练奖励模型。让微调过的模型对同一个prompt生成4到9个不同回答，标注员从好到坏排序。用这批排序数据训练一个独立的奖励模型，它不给答案打分，只预测"哪个回答更受人喜欢"。

第三步：强化学习。让模型一遍遍生成回答、被奖励模型打分、根据分数调整自己。算法叫PPO（Proximal Policy Optimization）。

实验结果很硬：13亿参数的InstructGPT在人类偏好打分上击败了1750亿参数的原版GPT-3，参数差了一百三十多倍。

这件事对整个行业冲击巨大：让模型变好用，跟把模型变大，是两条不同的路。

InstructGPT上线8个月后，2022年11月30日，OpenAI发布ChatGPT。背后的模型叫GPT-3.5，是InstructGPT路线训出来的进一步版本：先在GPT-3基础上做了一轮代码增强训练，再做完整的RLHF。

ChatGPT一发就在整个社会爆火。5天破百万用户，2个月破1亿月活，刷新了所有消费产品的增长记录。

让ChatGPT从"会续写"变成"能对话"的，正是InstructGPT那一套RLHF。

六、ChatGPT之后的百花齐放

ChatGPT在2022年11月点燃了整个行业。2023到2024这两年成了大语言模型的爆发期：闭源前沿玩家加码追赶，开源浪潮起来，中国玩家集体下场，整个生态从"OpenAI一家独大"变成多极混战。

Anthropic：另一条对齐路线

Anthropic的故事得从OpenAI内部的一次分裂说起。

2020年底到2021年初，OpenAI研究部门一批人先后离职，包括研究VP Dario Amodei、运营VP Daniela Amodei兄妹，加上GPT-3论文一作Tom Brown、Scaling Laws论文一作Jared Kaplan等核心人员。他们2021年1月在旧金山成立了Anthropic。

公开说法是"对OpenAI的方向有不同看法"。实际矛盾大致是：2019年OpenAI接受微软投资改成"利润上限"公司结构，让原本"非盈利"的初心变了味；2020年GPT-3商业化太快，安全研究分到的资源不够。

Anthropic的代表作是Constitutional AI（CAI），2022年12月发表。核心想法是：写一套明文原则（"宪法"），让模型自己用这套原则评估、批评、改写自己的回答，再用这些改写后的数据训练自己。把RLHF里"人类反馈"那一环换成"AI自反馈"，规模化的瓶颈一下消除了。

CAI对Anthropic尤其重要。他们当时没有OpenAI那种亿级用户的反馈来源；如果死磕RLHF原版方案，永远追不上。

但要老实说一句：早期Claude跟同期OpenAI旗舰模型差距明显。2023年3月Claude 1大致跟ChatGPT一个量级，但同月发布的GPT-4是另一个层次。2023年7月Claude 2、11月Claude 2.1，提升肉眼可见但仍在GPT-4之下。整个2023年，Claude在工程师圈里是"小众替代"，不是主流选择。

真正缩到平起平坐是2024年3月的Claude 3系列。 Opus在多项基准上跟GPT-4打平或小幅领先，是Anthropic第一次拿出能跟OpenAI旗舰对垒的模型。2024年6月Claude 3.5 Sonnet在代码任务上明显超过GPT-4，工程师圈大批人切到Claude。

Anthropic用Constitutional AI这条路线追平OpenAI，花了大约三年（2021创立到2024年3月Claude 3）。

LLaMA：开源浪潮的引爆点

Meta在2023年2月发了LLaMA-1，参数从7亿到650亿。本来只对学术研究开放，但权重在发布一周内被"泄漏"到4chan，整个开源社区瞬间上车。

架构上LLaMA跟GPT、Claude没本质区别，都是decoder-only Transformer。LLaMA用的几个优化（SwiGLU激活、RoPE位置编码、RMSNorm）后来被各家普遍采用。

真正不同在训练配方：参数压小、数据加多。 13B模型喂1万亿token，跟GPT-3那种"参数大、数据相对少"的路线相反。这条路为什么有效？我们后面会解释。

LLaMA放出来"够用"，但后训练这一头Meta一直比OpenAI/Anthropic弱。所以Llama衍生模型像爆米花一样冒出来：Stanford的Alpaca用GPT生成的数据微调，伯克利 Vicuna用ChatGPT对话数据微调。这些衍生品技术上违反服务条款，但实际很难追查，等于借闭源模型的对齐能力训出开源模型的对齐版本。

为什么衍生模型偏偏围着LLaMA转？因为OpenAI和Anthropic全程闭源，GPT-4、Claude在外人手里只是API接口，权重拿不到、不能微调、不能本地部署。开源社区想做衍生，必须有一个"前沿水平+开放权重"的底子。2023年初这种东西不存在，LLaMA是第一个把这两件事同时做到的。

2023年7月，Meta发LLaMA-2，许可证改成"商用可用"。2024年4月Llama-3发布，70B版本基准接近GPT-4；2024年7月Llama-3.1的405B开源版直接打到当时GPT-4o水平。

但LLaMA的高光时刻停在了Llama-3.1。2025年4月发的Llama-4口碑很糟。这段时间DeepSeek V3/R1接管了开源前沿位置，Qwen也持续强势，LLaMA从开源前沿滑到第二梯队。

原因是多方面的：首席科学家Yann LeCun公开质疑LLM路线，关键研究员流失到Anthropic和xAI，Meta内部对"是否要赢这场"本来动力就不强（Meta不靠卖AI赚钱，靠社交广告）。

全球玩家入场

ChatGPT之后两年，闭源前沿之外的玩家从美中欧三个方向集体入场。

美国这边，Google反应慢了一拍但没缺席。2023年2月仓促发了Bard，效果一般。2023年12月推出Gemini 1.0替换Bard，2024年2月推出Gemini 1.5主打百万级上下文窗口，2024年12月推出Gemini 2.0。从2024年起，Google在多模态和长上下文这两块开始压住OpenAI。

马斯克的xAI是后来者，2023年7月成立，同年11月推出Grok-1，2024年3月开源权重。走的是"社交平台入口+实时数据+大算力"的路线。

欧洲方面以Mistral为代表。法国Mistral 2023年5月成立，几个月内开源Mistral 7B和Mixtral 8x7B。定位很清晰：模型要小、快、便宜，能本地部署，能进欧洲企业的私有化场景。

中国这边反应相当迅速。2023年3月百度文心一言，4月阿里通义千问，6月智谱ChatGLM-2，8月字节豆包，10月月之暗面Kimi，11月零一万物Yi。到2024年，备案上线、能对公众提供服务的国产生成式AI大模型接近200个。

早期玩家很多，真正杀出来的是少数几家。阿里Qwen靠开源和工程完整度进入全球开发者社区。DeepSeek靠V3和R1把成本、MoE、推理能力一起打到海外圈面前。智谱GLM在政企和国产生态里站住位置。Kimi押长上下文。豆包靠App入口和流量规模做产品化。

到2025年，全球大模型格局基本是中美两极。美国占闭源前沿，OpenAI、Anthropic、Google、xAI各有打法。中国占开源前沿，DeepSeek、Qwen、GLM、Yi等模型把开放权重和低成本路线推到全球开发者面前。欧洲有Mistral，但总体体量不够。

七、两个关键修正：Chinchilla和MoE

百花齐放发生得这么快，背后有两个关键修正撑着。

Chinchilla修正了Scaling Law

GPT-3出来之后，行业的直觉是：模型越大越聪明。大家开始拼参数，1750亿、2800亿、万亿参数。

问题是，参数变大之后，如果训练文本没有跟上，模型就像一个脑容量很大但书没读够的人，潜力没吃满。

DeepMind 2022年的Chinchilla论文把这个问题重新算了一遍。结论很直接：同样的算力，不该只顾着把模型做大，也要让模型读足够多的文本。参数和数据要一起涨，甚至很多时候，少堆一点参数、多喂一点数据，效果反而更好。

最有说服力的例子是Chinchilla自己。它只有700亿参数，比DeepMind之前的Gopher小很多，但训练数据多得多。结果这个更小的模型，在一堆评测上反而超过了2800亿参数的Gopher，也超过了GPT-3。

这件事改变了开源模型的打法。开源社区很难一上来就训1750亿参数模型，但可以训练一个更小的模型，再给它喂足够多、足够干净的数据。LLaMA就是这条路线的标志性成果：参数没有夸张到天上去，训练数据却吃得很足，最后做到"小模型打大模型"。

Chinchilla真正修正的是"规模"这个词的含义。规模不只是参数规模，也包括训练数据规模。

MoE：大模型怎么变得更便宜

MoE全称是Mixture of Experts，混合专家。想法很直观：一个问题来了，不必让所有人一起上，只要找最相关的几个专家处理。

放到Transformer里：decoder里有attention，负责看上下文；attention后面还有一段前馈网络，负责把信息再加工一下。普通模型每次都会动用同一整套网络。MoE把这套网络拆成很多个"专家"，再加一个很小的"调度员"。每个token进来，调度员只挑其中一两个专家来处理。

这样做的好处是：账面上模型可以很大，真正干活的部分却不必每次都全部启动。比如一个模型总共有几千亿参数，但处理某个token时只激活其中几十亿参数。总容量变大了，推理成本没有跟着等比例变大。

这个想法很早就有人做过，但长期不好用。难点不在概念，在于工程。调度员如果分配不好，有的专家忙死有的专家闲着，训练就不稳定。专家之间还要互相传数据，通信成本也会把收益吃掉。

到2023年以后，训练框架、GPU通信、低精度训练都成熟了，MoE终于稳得住、训得动。Mistral的Mixtral 8×7B是一个重要信号：它有八个专家，每次只激活两个，效果可以压过不少更大的稠密模型。DeepSeek V3把这条路推得更远，总参数做到6710亿，但每个token只激活370亿左右。

把Chinchilla和MoE合起来看，逻辑就顺了：

●

Chinchilla告诉我们：同样算力下别盲目堆参数，要让模型读够数据。

●

MoE告诉我们：模型可以有很大的总容量，但每次推理只用一部分。

开源社区能在2023到2024年追得这么快，背后很大一部分原因就在这里。

八、推理模型：一个新的Scaling轴

2024年9月，OpenAI发布o1 preview。这个模型让整个行业意识到一件事：Scaling不只是把模型变大、把数据加多，还可以在回答阶段花更多算力。

过去模型回答问题，基本是看到问题就往下生成。推理模型会先花更多时间在内部推演，试几条路，检查哪里错了，再给出最终答案。

简单说：过去主要是在训练时多花算力，把模型训得更强；现在是在回答时也多花算力，让模型多想一会儿。

这为什么重要？因为数学、编程、科学题这类任务，有明确的对错。模型做对了就奖励，做错了就惩罚，这个反馈比"哪个回答更好"干净得多。

o1发布后，Google在2024年12月放出Gemini 2.0 Flash Thinking，DeepSeek在2025年1月发布R1，Anthropic在2025年2月发布Claude 3.7 Sonnet的extended thinking，xAI的Grok-3也加入了Think和Big Brain这类推理模式。

推理模型真正改变的是算力花钱的位置。

过去主要把钱花在训练阶段，训好之后尽量便宜地服务用户。现在多了一种买法：每次遇到难题，就临时多买一点思考时间。大力出奇迹没有消失，只是从"训练时大力"扩展到了"回答时也大力"。

九、系统化：模型进入真实工作流

到这里，故事的重心开始换地方。

前面讲的主要是模型怎么变强。架构、预训练、后训练、开源、MoE、推理时算力，所有努力都围着"模型本身"转。

2025年之后，另一个问题变得更急：模型已经够强了，它到底能替人干什么？

RAG：模型接外部知识库

RAG不算最新热点，源头是2020年Facebook AI的Retrieval-Augmented Generation论文。真正变成工程标配，是ChatGPT火了之后，企业开始把大模型接进自己的文档、知识库和数据库。

RAG的思路很简单：先检索，再生成。用户问一个问题，系统先去外部资料里找相关片段，然后把这些片段塞进模型上下文，让模型基于材料回答。

这解决的是LLM最要命的几个现实问题：模型训练完之后知识就固定在参数里，没法知道公司昨天刚更新的政策；它还会编造，回答完也说不清依据来自哪里。RAG把外部材料拉进来，至少让回答有出处、有上下文，也更容易更新。

Tool Calling和MCP：模型开始调用系统

2023年6月，OpenAI在API里加入function calling，意思是开发者可以把外部函数描述给模型。模型不再只能生成一段自然语言，而是可以输出一段结构化参数，告诉系统："现在该查订单""现在该调退款接口""现在该发一封邮件"。

这件事把LLM从聊天框里拉了出来。过去模型的输出就是文字，文字给人看。tool calling之后，模型的输出可以变成软件系统的输入，直接触发数据库查询、API调用、代码执行和业务流程。

Anthropic在2024年11月开源MCP（Model Context Protocol），想解决的是工具调用乱的问题。MCP可以理解成AI应用和外部系统之间的一套通用插头：文档库、GitHub、数据库、Slack、浏览器，都按同一套协议把资源和工具暴露出来，模型客户端按同一套方式接入。

Long Context和Memory：模型带着历史工作

早期模型的context window只有几千token，一篇长论文、一份合同、一个稍微复杂的代码库，很快就塞不进去。用户只好把材料切碎，一段段问，模型也容易前面刚读过，后面就忘了。

2024年，长上下文变成一条明确赛道。Google在Gemini 1.5 Pro里把上下文窗口推到100万token，Claude、GPT、Qwen、Kimi也都在往长上下文走。

长上下文解决的是"这一轮能读多少"。Memory解决的是"跨会话能不能记住"。2024年OpenAI开始给ChatGPT做memory，让它记住用户偏好、写作格式、工作背景。到2025年，ChatGPT的memory进一步扩展，可以参考过去更多聊天历史。

这对个人助理和Agent很关键。一个长期帮你写文章的模型，如果记得你不喜欢什么句式、常写哪些主题、引用格式怎么放，下一次就不用从零交代。

把RAG、长上下文和memory放在一起看，LLM正在补三种"记忆能力"：

●

RAG让模型查外部资料

●

长上下文让模型一次读更多现场材料

●

memory让模型跨任务记住长期背景

Agent要稳定工作，离不开这三层。

十、从模型竞赛到应用竞赛

2025年之后，竞争重心开始从模型竞赛移到应用竞赛。

基础模型公司不再满足于只卖API，SaaS公司也不再满足于只加一个AI按钮。大家都在往同一个方向挤：把模型接进真实工作流，让它能调用工具、读写数据、执行动作、交付结果。

Agent的产品化

先把"套壳"说清楚。早期很多AI创业公司做的就是这个：底层直接调用OpenAI/Anthropic/Gemini的API，外面包一层界面、提示词模板和收费页。换个垂直场景，写几组prompt，就说自己是AI写作、AI客服、AI销售。

这种套壳更接近AI-powered SaaS，未必是Agent。它本质上还是传统软件，只是在某个环节调用模型生成一段话。

真正的Agent要多几层东西：它要能理解目标，拆出步骤，选择工具，调用API，读取结果，发现错误，再决定下一步。它还要接权限、日志、审批、记忆、数据源和评测系统。

模型只是脑子，Agent产品还需要手、脚、眼睛、记录本和刹车。

2025年之后，变化更明显。过去很多创业公司在应用层套壳，现在基础模型公司直接下场做应用层。OpenAI先做Operator让模型用浏览器点网页，后来又把Operator、Deep Research、代码执行整合进ChatGPT agent。Anthropic把Claude Code、computer use、MCP一路往工具和开发者工作流里推。

这里的压力很现实：基础模型只卖token，容易变成云服务里的算力商品。应用层才离用户预算更近，也离企业流程更近。模型公司自己做Agent，本质上是在往SaaS和企业软件的地盘走。

Coding Agent最先跑通

Coding Agent最先成熟，原因很直接：代码场景天然适合Agent。

它有文件系统、终端、测试、编译器、Git、issue、CI。模型改完代码之后，系统可以立刻告诉它对了还是错了。这和很多办公场景不一样——写一封销售邮件好不好，往往要等客户反应；做一份战略报告好不好，判断很主观。代码更干脆：能不能编译，测试过不过，bug有没有复现。

所以AI coding工具很快从"补全一行代码"走到"处理一个任务"。Cursor、GitHub Copilot、Claude Code这类工具，已经开始读整个代码库、定位相关文件、修改多处代码、运行测试、根据报错继续修。

这正在改变程序员生态。最浅的一层，是补全代码、生成样板、解释报错，初级工作被自动化掉一大块。更深的一层，是AI开始进入代码审查、重构、测试生成、依赖升级、文档维护这些日常工程流程。

但这不等于程序员不重要了。变化更像是分工重排：写语法的价值下降，定义问题、拆任务、看架构、控质量、补测试、管安全的价值上升。

AI coding工具也解释了为什么未来Agent不会一下子横扫所有行业。它要有工具，要有反馈，要有边界。代码场景这些条件最齐，所以先成熟。其他行业要复制这件事，先得把流程、数据、权限和评测补起来。

多模态和Computer Use

这篇文章主要讲LLM，因为文字是大语言模型的主战场。但另一条线也在快速推进：图像、音频、视频生成式AI，已经从玩具走到产品。

多模态让模型能读图、听声音、看视频、理解屏幕。Computer use让模型看屏幕、移动鼠标、敲键盘，像人一样操作软件。OpenAI的Operator、Anthropic的computer use，都在往这个方向走。

未来Agent会有更完整的输入输出：能读合同PDF，看仪表盘截图，听会议录音，生成PPT，操作浏览器，甚至剪一段视频。LLM仍然是中枢，但它周围会接上视觉、语音、视频和操作系统界面。模型开始从"会说话"走向"会看、会听、会点、会做"。

结语

回头看这八年，大语言模型的发展可以压成一句话：一个为机器翻译设计的架构，被一路放大、驯服、商品化，最后变成了软件世界的新接口。

第一步是架构。Transformer解决的是RNN在翻译里的两个老问题：串行太慢，长距离关系容易丢。Attention把所有词之间的关系一次摊开，让GPU可以并行处理，也让模型更容易抓住长句里的依赖关系。2017年那篇论文真正打开的，后来成了整个LLM时代的计算底座。

第二步是路线分叉。Google拿encoder做BERT，主攻理解、分类、检索、问答。OpenAI拿decoder做GPT，押注生成和预测下一个词。当时看BERT更像正统NLP，GPT更像文字接龙。GPT-3之后，这个判断反过来了：只要模型足够大，生成能力会吃掉很多原本被认为需要专门设计的任务。

第三步是规模。GPT-3证明了一个反直觉事实：很多能力不需要逐项手写规则，也不需要每个任务单独训练，规模上去之后，模型会出现in-context learning这样的新行为。但规模不是一句"大力出奇迹"就完事。Megatron、GPipe、ZeRO、FlashAttention、KV cache、量化这些工程积累，才让大模型真的训得动、跑得起、用得上。

第四步是对齐。GPT-3很强，但不好用。InstructGPT和ChatGPT解决的是另一个问题：模型怎么听人话、按指令做事、少胡来。RLHF把人类偏好塞进训练流程，Anthropic的Constitutional AI又证明，对齐不一定只能靠海量用户反馈。预训练给模型知识，后训练把模型调成一个可以被普通人使用的产品。

第五步是生态。ChatGPT爆红之后，闭源和开源很快分成两套系统。OpenAI、Anthropic、Google、xAI把模型做成云服务、App和API，拼的是算力、产品、分发和企业销售。Meta、Mistral、DeepSeek、Qwen这些开源路线，把模型变成开发者和企业可以本地部署、微调、私有化的基础设施。今天的大模型竞争，早就超出了benchmark分数，开始比一整套产业组织能力。

第六步是效率。Chinchilla提醒大家，参数不是唯一尺度，数据也要跟上。MoE提醒大家，模型可以有很大总容量，但每次只激活一部分。开源模型能快速追上来，靠的不只是"追随前沿"，也靠更会算账：同样的算力预算，怎么训得更久、喂得更准、跑得更便宜。

第七步是新Scaling轴。o1之后，推理时算力变成新的变量。过去主要在训练阶段砸钱，训出一个尽量强的模型；现在遇到数学、代码、科学题，还可以在回答阶段多花算力，让模型多试几条路、多检查几次。

第八步是系统化。RAG、长上下文、memory、tool calling、MCP、harness engineering，这些词看起来杂，其实都在回答同一个问题：模型怎么进入真实工作流。

所以这篇文章最后落到Agent，原因很简单：它把前面所有线索都收在了一起。没有强模型，Agent只会胡说。没有RAG和长上下文，它不知道该看什么。没有工具调用，它只能写建议，不能执行动作。没有harness，它进不了生产环境。没有业务流程改造，它也省不下真钱。

2025年之后，竞争重心开始从模型竞赛移到应用竞赛。基础模型公司往应用层走，SaaS公司往Agent化走，咨询公司和系统集成商重新变重要。企业最终不会为"更会聊天"长期付高价，企业愿意为更低成本、更快流程、更少错误付钱。

模型能力当然还会继续涨，但边际收益正在变小。更大的空间，可能在系统层：怎样把一个模型、几个小模型、外部工具、知识库、业务系统和人类审批组合成稳定流程。

过去十年，AI工程的主角是"训练一个更强的模型"。接下来几年，主角会越来越像"围绕模型搭一套能交付结果的系统"。

今天的大语言模型还远没有定型。它像早期互联网，也像早期云计算：底层技术还在变，商业模式还在试，泡沫和真需求混在一起。

但有一点已经很清楚：LLM不会只是一类聊天产品。它更像一层新的软件抽象，往下接数据、工具和算力，往上接人、流程和公司决策。

这就是过去八年真正发生的事：语言模型从一个会续写文本的神经网络，变成了一个可以被调用、被约束、被组合、被部署的通用计算零件。它还不稳定，也不便宜，更谈不上万能。但它已经足够强，强到整个软件工业都必须围着它重新排一遍位置。

王畅 · Polaris

一篇文章讲清大语言模型发展史