news 2026/5/17 1:10:09

一篇文章讲清大语言模型发展史

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一篇文章讲清大语言模型发展史

2017年的某个夏天,Google内部一群搞翻译的工程师,发了一篇论文。标题很狂,叫《Attention Is All You Need》。意思很明确:我们把RNN彻底扔了,只用注意力机制,翻译效果反而更好。

这篇论文后来被叫做Transformers。它在当时只是一篇机器翻译论文。但回头看,它更像是大语言模型时代的操作系统——所有后来发生的故事,都在这个框架上展开。

从2017到今天,不过八年。八年间,这个行业经历了从学术论文到万亿美元市场的跃迁,经历了OpenAI从无名小卒到顶流明星的逆袭,经历了开源与闭源的路线之争,经历了从“能说话”到“能办事”的能力跃迁。

这篇文章想做一件事:把大语言模型这条线,从一堆散乱的名词,整理成一条清楚的主线。不是技术名词年表,而是讲清楚那几次关键转向——模型怎么从“预测下一个词”走到通用智能入口,规模为什么成了核心变量,ChatGPT到底改变了什么,开源模型为什么突然追上来,推理模型又意味着什么。

我们开始。


一、架构的胜利:Transformers来了

要理解后来发生的一切,得先回到2017年,理解Transformers为什么重要。

那一年,Google翻译已经在用神经网络了,但用的是RNN——一种按顺序处理文本的模型。读一句话,得从左到右一个词一个词滚:第一遍记住"我",第二遍合并"喜欢",第三遍合并"北京",一路滚到"烤鸭"。这个过程有两个毛病:

第一,串行。 一个词没处理完,下一个词动不了。GPU有几千个计算核心,但RNN只能用到其中一个。

第二,信号衰减。 等滚到"烤鸭"时,"我"这个词已经被压缩了五六次,早就模糊了。

Google翻译组有八个人决定换思路。2017年6月,他们发表了那篇后来被称为"原子弹级论文"的《Attention Is All You Need》。核心想法很简单:不要串行了,让每个词同时看所有词。

怎么做到?用注意力机制。

举个例子,"我喜欢北京的烤鸭"这句话里,"烤鸭"两个字单独看就是"烤的鸭子",但在这句话里它特指"北京烤鸭"。模型怎么知道?让"烤鸭"给每个词打分:离"北京"最近,给高分;离"喜欢"中等;离"我"和"的"几乎为零。按这个比例把所有词的信息吸收过来,"烤鸭"这个词的向量就被改写了——它不再只是"烤的鸭子",而是"这句话里那只我喜欢的北京烤鸭"。

这就是注意力。六个词同时各做一遍,一轮跑完,每个词都拿到了"在这句话里的具体含义"。没有串行,没有压缩,没有衰减。

而且这六个词的计算可以打包成一次大矩阵乘法,扔给GPU并行完成。

这就是"Attention Is All You Need"的意思:把RNN的循环结构整个扔掉,问题反而都解决了。


二、两条路线:BERT和GPT的分叉

Transformers最初是为翻译设计的,分两半:encoder负责读原文,decoder负责写译文。但2018年之后,大家发现这两半可以拆开,各走各的路。

Google走的是encoder路线,做出了BERT。

BERT的全称是"Bidirectional Encoder Representations from Transformers"。重点在两个词:encoder——只用Transformer的左边;bidirectional——读一个词时,可以同时看左边和右边。

BERT的训练方式像完形填空。给一段话,随机遮住一些词,让模型猜被遮住的是什么。比如"我喜欢北京的[MASK]",模型要从"我、喜欢、北京、的"这些上下文里猜出"烤鸭"。

BERT解决的是NLP里最值钱的问题:读懂一段话。分类、问答、实体识别、语义匹配——这些任务不需要模型生成新文本,更需要模型把整段话看明白。

BERT出来之后,学术界主流认为这条路是对的:理解和生成是两件事,应该分开设计。BERT负责"读懂",GPT负责"续写"。

OpenAI走的是decoder路线,做出了GPT。

GPT的全称是"Generative Pre-trained Transformer"。意思很直接:先用海量文本训练一个会"续写"的Transformer,再看这个续写能力能不能迁移到各种任务上。

训练目标很简单:给你前N个词,猜第N+1个词。

这个目标比BERT的完形填空难。BERT两边都给你,是选择题;GPT只能看左边猜右边,是开放题。但OpenAI赌的是:能把开放题做好,做选择题是顺带的事。

2018年6月,GPT-1发布,1.17亿参数。2019年2月,GPT-2发布,15亿参数。

从benchmark看,GPT-2打不过同期BERT。2018年10月BERT一出来就把GPT-1压过去了。Facebook的RoBERTa(优化版BERT,只有3.55亿参数)在GLUE、SQuAD这些榜单上继续压着GPT-2。参数量大四倍,分数反而更低。

但GPT-2有两件事让OpenAI看到另一种可能:

第一,文本生成质量肉眼可见地强。 能写出连贯的长段落,风格切换自如,能以假乱真。

第二,它展示了"一个模型能做很多事"的迹象。 没有专门训练,却在问答、摘要、翻译上表现出一定能力。

这说明一件事:BERT那种"每个任务单独微调"的路线,可能不是终点。"预测下一个词"这个简单目标,如果规模够大,可能会长出通用能力。

OpenAI内部有人想赌这件事。


三、GPT-3的赌注:大力出奇迹

OpenAI内部有一群人想赌一件跟主流认知不同的事:如果模型大到上千亿参数,光"猜下一个词"这一招会不会自己长出新能力?

这个赌注的核心信徒是首席科学家Ilya Sutskever。他从AlexNet那个年代就坚信:深度学习的进步主要靠规模,算法创新次要。

技术上给这个赌注提供依据的,是2020年1月Jared Kaplan等人发表的《Scaling Laws for Neural Language Models》。这篇论文证明:模型loss会随参数、数据、算力按可预测的幂律下降。换句话说,多大算力换多少能力,事前可以算出来。

这给了OpenAI押1750亿参数这个具体数字的底气。

但工程上不是一步到位的。GPT-1几张GPU就够,GPT-2开始吃力,GPT-3要冲到1750亿参数,之前那套训练工具链根本顶不住。

算一笔账:1750亿参数光存权重就要约350GB(用16位浮点),加上反向传播的中间结果和优化器状态,实际需要2到3TB内存。当时NVIDIA最强的V100每张才32GB显存,单卡根本装不下。

解决它需要三套工程突破:

第一关:模型放不下一张卡。 NVIDIA 2019年9月发的Megatron-LM给出答案:张量并行。把单个权重矩阵切成N份,N张GPU各算一块再汇总。像一张大试卷撕成4份让4个人同时写。

第二关:层数堆起来还是装不下。 Google 2018年底发的GPipe给出答案:流水线并行。不同层放到不同GPU,数据像流水线一样从第一张卡流到最后一张。

第三关:优化器状态吃天量内存。 微软2019年发的ZeRO给出答案:优化器状态、梯度、参数全部按GPU数量切开,每张卡只存1/N,需要时临时通信交换。N张卡的显存合起来变成一个虚拟大显存。

三招组合起来叫"3D并行"。少任何一个都不行:光张量并行96层叠不下;光流水线单层装不下;不上ZeRO光优化器状态就溢出。

硬件这边,微软在Azure上搭了一台约一万张V100 GPU的超级计算机,2020年5月公布,是当时全球前五的超算之一。

2020年5月28日,OpenAI发表GPT-3。


四、范式转移:in-context learning

GPT-3的核心发现一句话讲完:模型大到一定程度,新能力会自己冒出来。

它展示的最关键能力叫in-context learning(上下文学习)。模型不必为每个任务专门微调,只要在prompt里给两三个示范,它就能照着做这个任务。

给两三个示范就照做的叫few-shot;什么示范都不给直接做的叫zero-shot。

效果有多炸?论文里几个结果让人下巴掉下来:

GPT-3在SuperGLUE、TriviaQA这些benchmark上的few-shot分数,跟专门fine-tune过的模型差不多甚至更好。它能写出像样的新闻文章,人类读者区分真假的识别率只比扔硬币高一点。它能从自然语言描述生成简单代码、做基础算术、回答一些没见过的常识题。

这种能力在小模型里完全看不到。 GPT-2(15亿参数)也能续写,但给它两三个示范它学不会照做。GPT-3(1750亿参数)烧到那个临界值,新行为整个浮上来。

这是发生了相变,像水烧到100度才沸腾。

但更大的影响在工作方式层面。GPT-3触发了整个NLP行业从老范式到新范式的整体转移。

老范式(2018-2020): 预训练一个模型,针对每个任务收集标注数据,微调。每个任务单独标数据、单独微调、单独部署。一家公司想做客服分类+自动翻译+文档摘要+内容审核,就得养四个不同的模型。

新范式: 模型不为任何具体任务训练,只学一件事:预测下一个词。要它做翻译就写prompt:"把下面英文翻成中文:Hello world →";要它做情感分析就写:"判断这段评论的情绪是正面还是负面:[评论] →"。

从"训练时绑定任务"到"使用时绑定任务"。后来Stanford HAI在2021年专门发了一篇论文给这套范式命名,叫foundation model(基础模型)。

BERT那派"理解和生成必须分开"的理论判断被证伪了。从GPT-3之后,所有前沿大模型——GPT、Claude、Gemini、LLaMA、DeepSeek、Qwen——都是decoder-only Transformer的后代。

当然,BERT没有死。它在产业界仍然是分类、检索、向量embedding这些窄场景的主力。Google搜索后端、文档分类系统、电商推荐里的语义匹配,今天还在跑BERT派的模型。它们小、快、便宜,专门做一件事比叫一个千亿大模型来做划算得多。

但"前沿AI"这条赛道的主线,从GPT-3起彻底换了。


五、能力不等于好用:RLHF登场

GPT-3发完,OpenAI在2020年6月把它做成商业API上线。很贵:起步价0.06美元1000 token。一年里上百家公司围着这个API做产品:Jasper做营销文案,AI Dungeon做交互小说,Replika做陪伴聊天。

但绝大多数尝试很快撞墙。

模型什么都会,但什么都不听话。 你让它写一份正经报告,它会扯到段子上;你让它客观回答问题,它会编造数据;你问它一个敏感话题,它会给你一段不合适的回答。

最典型的事故是AI Dungeon:2020年7月接入GPT-3后体验质变,但很快出现大量不可控生成(露骨、暴力、儿童内容)。OpenAI在2021年4月威胁切断API访问,逼着AI Dungeon加各种过滤器,社区随后流失大半。

这暴露了一个此前没被认真理论化的鸿沟:模型"知道什么"和模型"愿意做什么"之间,隔着一层。 光把模型变大不够,必须再做一层"对齐"。圈里管这个叫alignment problem。

GPT-3之后的两年多,OpenAI主要做的事,就是把这个对齐层补上。

转折点是2022年3月,OpenAI发表InstructGPT论文,给出了RLHF(Reinforcement Learning from Human Feedback)的标准三段论:

第一步:监督微调(SFT)。 雇40多个标注员,针对几万条真实用户prompt亲手写出"理想回答"。拿这批数据微调GPT-3。模型第一次学到"什么样的回答符合期待"。

第二步:训练奖励模型。 让微调过的模型对同一个prompt生成4到9个不同回答,标注员从好到坏排序。用这批排序数据训练一个独立的奖励模型,它不给答案打分,只预测"哪个回答更受人喜欢"。

第三步:强化学习。 让模型一遍遍生成回答、被奖励模型打分、根据分数调整自己。算法叫PPO(Proximal Policy Optimization)。

实验结果很硬:13亿参数的InstructGPT在人类偏好打分上击败了1750亿参数的原版GPT-3,参数差了一百三十多倍。

这件事对整个行业冲击巨大:让模型变好用,跟把模型变大,是两条不同的路。

InstructGPT上线8个月后,2022年11月30日,OpenAI发布ChatGPT。背后的模型叫GPT-3.5,是InstructGPT路线训出来的进一步版本:先在GPT-3基础上做了一轮代码增强训练,再做完整的RLHF。

ChatGPT一发就在整个社会爆火。5天破百万用户,2个月破1亿月活,刷新了所有消费产品的增长记录。

让ChatGPT从"会续写"变成"能对话"的,正是InstructGPT那一套RLHF。


六、ChatGPT之后的百花齐放

ChatGPT在2022年11月点燃了整个行业。2023到2024这两年成了大语言模型的爆发期:闭源前沿玩家加码追赶,开源浪潮起来,中国玩家集体下场,整个生态从"OpenAI一家独大"变成多极混战。

Anthropic:另一条对齐路线

Anthropic的故事得从OpenAI内部的一次分裂说起。

2020年底到2021年初,OpenAI研究部门一批人先后离职,包括研究VP Dario Amodei、运营VP Daniela Amodei兄妹,加上GPT-3论文一作Tom Brown、Scaling Laws论文一作Jared Kaplan等核心人员。他们2021年1月在旧金山成立了Anthropic。

公开说法是"对OpenAI的方向有不同看法"。实际矛盾大致是:2019年OpenAI接受微软投资改成"利润上限"公司结构,让原本"非盈利"的初心变了味;2020年GPT-3商业化太快,安全研究分到的资源不够。

Anthropic的代表作是Constitutional AI(CAI),2022年12月发表。核心想法是:写一套明文原则("宪法"),让模型自己用这套原则评估、批评、改写自己的回答,再用这些改写后的数据训练自己。把RLHF里"人类反馈"那一环换成"AI自反馈",规模化的瓶颈一下消除了。

CAI对Anthropic尤其重要。他们当时没有OpenAI那种亿级用户的反馈来源;如果死磕RLHF原版方案,永远追不上。

但要老实说一句:早期Claude跟同期OpenAI旗舰模型差距明显。2023年3月Claude 1大致跟ChatGPT一个量级,但同月发布的GPT-4是另一个层次。2023年7月Claude 2、11月Claude 2.1,提升肉眼可见但仍在GPT-4之下。整个2023年,Claude在工程师圈里是"小众替代",不是主流选择。

真正缩到平起平坐是2024年3月的Claude 3系列。 Opus在多项基准上跟GPT-4打平或小幅领先,是Anthropic第一次拿出能跟OpenAI旗舰对垒的模型。2024年6月Claude 3.5 Sonnet在代码任务上明显超过GPT-4,工程师圈大批人切到Claude。

Anthropic用Constitutional AI这条路线追平OpenAI,花了大约三年(2021创立到2024年3月Claude 3)。

LLaMA:开源浪潮的引爆点

Meta在2023年2月发了LLaMA-1,参数从7亿到650亿。本来只对学术研究开放,但权重在发布一周内被"泄漏"到4chan,整个开源社区瞬间上车。

架构上LLaMA跟GPT、Claude没本质区别,都是decoder-only Transformer。LLaMA用的几个优化(SwiGLU激活、RoPE位置编码、RMSNorm)后来被各家普遍采用。

真正不同在训练配方:参数压小、数据加多。 13B模型喂1万亿token,跟GPT-3那种"参数大、数据相对少"的路线相反。这条路为什么有效?我们后面会解释。

LLaMA放出来"够用",但后训练这一头Meta一直比OpenAI/Anthropic弱。所以Llama衍生模型像爆米花一样冒出来:Stanford的Alpaca用GPT生成的数据微调,伯克利 Vicuna用ChatGPT对话数据微调。这些衍生品技术上违反服务条款,但实际很难追查,等于借闭源模型的对齐能力训出开源模型的对齐版本。

为什么衍生模型偏偏围着LLaMA转?因为OpenAI和Anthropic全程闭源,GPT-4、Claude在外人手里只是API接口,权重拿不到、不能微调、不能本地部署。开源社区想做衍生,必须有一个"前沿水平+开放权重"的底子。2023年初这种东西不存在,LLaMA是第一个把这两件事同时做到的。

2023年7月,Meta发LLaMA-2,许可证改成"商用可用"。2024年4月Llama-3发布,70B版本基准接近GPT-4;2024年7月Llama-3.1的405B开源版直接打到当时GPT-4o水平。

但LLaMA的高光时刻停在了Llama-3.1。2025年4月发的Llama-4口碑很糟。这段时间DeepSeek V3/R1接管了开源前沿位置,Qwen也持续强势,LLaMA从开源前沿滑到第二梯队。

原因是多方面的:首席科学家Yann LeCun公开质疑LLM路线,关键研究员流失到Anthropic和xAI,Meta内部对"是否要赢这场"本来动力就不强(Meta不靠卖AI赚钱,靠社交广告)。

全球玩家入场

ChatGPT之后两年,闭源前沿之外的玩家从美中欧三个方向集体入场。

美国这边,Google反应慢了一拍但没缺席。2023年2月仓促发了Bard,效果一般。2023年12月推出Gemini 1.0替换Bard,2024年2月推出Gemini 1.5主打百万级上下文窗口,2024年12月推出Gemini 2.0。从2024年起,Google在多模态和长上下文这两块开始压住OpenAI。

马斯克的xAI是后来者,2023年7月成立,同年11月推出Grok-1,2024年3月开源权重。走的是"社交平台入口+实时数据+大算力"的路线。

欧洲方面以Mistral为代表。法国Mistral 2023年5月成立,几个月内开源Mistral 7B和Mixtral 8x7B。定位很清晰:模型要小、快、便宜,能本地部署,能进欧洲企业的私有化场景。

中国这边反应相当迅速。2023年3月百度文心一言,4月阿里通义千问,6月智谱ChatGLM-2,8月字节豆包,10月月之暗面Kimi,11月零一万物Yi。到2024年,备案上线、能对公众提供服务的国产生成式AI大模型接近200个。

早期玩家很多,真正杀出来的是少数几家。阿里Qwen靠开源和工程完整度进入全球开发者社区。DeepSeek靠V3和R1把成本、MoE、推理能力一起打到海外圈面前。智谱GLM在政企和国产生态里站住位置。Kimi押长上下文。豆包靠App入口和流量规模做产品化。

到2025年,全球大模型格局基本是中美两极。 美国占闭源前沿,OpenAI、Anthropic、Google、xAI各有打法。中国占开源前沿,DeepSeek、Qwen、GLM、Yi等模型把开放权重和低成本路线推到全球开发者面前。欧洲有Mistral,但总体体量不够。


七、两个关键修正:Chinchilla和MoE

百花齐放发生得这么快,背后有两个关键修正撑着。

Chinchilla修正了Scaling Law

GPT-3出来之后,行业的直觉是:模型越大越聪明。 大家开始拼参数,1750亿、2800亿、万亿参数。

问题是,参数变大之后,如果训练文本没有跟上,模型就像一个脑容量很大但书没读够的人,潜力没吃满。

DeepMind 2022年的Chinchilla论文把这个问题重新算了一遍。结论很直接:同样的算力,不该只顾着把模型做大,也要让模型读足够多的文本。参数和数据要一起涨,甚至很多时候,少堆一点参数、多喂一点数据,效果反而更好。

最有说服力的例子是Chinchilla自己。它只有700亿参数,比DeepMind之前的Gopher小很多,但训练数据多得多。结果这个更小的模型,在一堆评测上反而超过了2800亿参数的Gopher,也超过了GPT-3。

这件事改变了开源模型的打法。开源社区很难一上来就训1750亿参数模型,但可以训练一个更小的模型,再给它喂足够多、足够干净的数据。LLaMA就是这条路线的标志性成果:参数没有夸张到天上去,训练数据却吃得很足,最后做到"小模型打大模型"。

Chinchilla真正修正的是"规模"这个词的含义。规模不只是参数规模,也包括训练数据规模。

MoE:大模型怎么变得更便宜

MoE全称是Mixture of Experts,混合专家。想法很直观:一个问题来了,不必让所有人一起上,只要找最相关的几个专家处理。

放到Transformer里:decoder里有attention,负责看上下文;attention后面还有一段前馈网络,负责把信息再加工一下。普通模型每次都会动用同一整套网络。MoE把这套网络拆成很多个"专家",再加一个很小的"调度员"。每个token进来,调度员只挑其中一两个专家来处理。

这样做的好处是:账面上模型可以很大,真正干活的部分却不必每次都全部启动。比如一个模型总共有几千亿参数,但处理某个token时只激活其中几十亿参数。总容量变大了,推理成本没有跟着等比例变大。

这个想法很早就有人做过,但长期不好用。难点不在概念,在于工程。调度员如果分配不好,有的专家忙死有的专家闲着,训练就不稳定。专家之间还要互相传数据,通信成本也会把收益吃掉。

到2023年以后,训练框架、GPU通信、低精度训练都成熟了,MoE终于稳得住、训得动。Mistral的Mixtral 8×7B是一个重要信号:它有八个专家,每次只激活两个,效果可以压过不少更大的稠密模型。DeepSeek V3把这条路推得更远,总参数做到6710亿,但每个token只激活370亿左右。

把Chinchilla和MoE合起来看,逻辑就顺了:

Chinchilla告诉我们:同样算力下别盲目堆参数,要让模型读够数据。

MoE告诉我们:模型可以有很大的总容量,但每次推理只用一部分。

开源社区能在2023到2024年追得这么快,背后很大一部分原因就在这里。


八、推理模型:一个新的Scaling轴

2024年9月,OpenAI发布o1 preview。这个模型让整个行业意识到一件事:Scaling不只是把模型变大、把数据加多,还可以在回答阶段花更多算力。

过去模型回答问题,基本是看到问题就往下生成。推理模型会先花更多时间在内部推演,试几条路,检查哪里错了,再给出最终答案。

简单说:过去主要是在训练时多花算力,把模型训得更强;现在是在回答时也多花算力,让模型多想一会儿。

这为什么重要?因为数学、编程、科学题这类任务,有明确的对错。模型做对了就奖励,做错了就惩罚,这个反馈比"哪个回答更好"干净得多。

o1发布后,Google在2024年12月放出Gemini 2.0 Flash Thinking,DeepSeek在2025年1月发布R1,Anthropic在2025年2月发布Claude 3.7 Sonnet的extended thinking,xAI的Grok-3也加入了Think和Big Brain这类推理模式。

推理模型真正改变的是算力花钱的位置。

过去主要把钱花在训练阶段,训好之后尽量便宜地服务用户。现在多了一种买法:每次遇到难题,就临时多买一点思考时间。大力出奇迹没有消失,只是从"训练时大力"扩展到了"回答时也大力"。


九、系统化:模型进入真实工作流

到这里,故事的重心开始换地方。

前面讲的主要是模型怎么变强。架构、预训练、后训练、开源、MoE、推理时算力,所有努力都围着"模型本身"转。

2025年之后,另一个问题变得更急:模型已经够强了,它到底能替人干什么?

RAG:模型接外部知识库

RAG不算最新热点,源头是2020年Facebook AI的Retrieval-Augmented Generation论文。真正变成工程标配,是ChatGPT火了之后,企业开始把大模型接进自己的文档、知识库和数据库。

RAG的思路很简单:先检索,再生成。 用户问一个问题,系统先去外部资料里找相关片段,然后把这些片段塞进模型上下文,让模型基于材料回答。

这解决的是LLM最要命的几个现实问题:模型训练完之后知识就固定在参数里,没法知道公司昨天刚更新的政策;它还会编造,回答完也说不清依据来自哪里。RAG把外部材料拉进来,至少让回答有出处、有上下文,也更容易更新。

Tool Calling和MCP:模型开始调用系统

2023年6月,OpenAI在API里加入function calling,意思是开发者可以把外部函数描述给模型。模型不再只能生成一段自然语言,而是可以输出一段结构化参数,告诉系统:"现在该查订单""现在该调退款接口""现在该发一封邮件"。

这件事把LLM从聊天框里拉了出来。过去模型的输出就是文字,文字给人看。tool calling之后,模型的输出可以变成软件系统的输入,直接触发数据库查询、API调用、代码执行和业务流程。

Anthropic在2024年11月开源MCP(Model Context Protocol),想解决的是工具调用乱的问题。MCP可以理解成AI应用和外部系统之间的一套通用插头:文档库、GitHub、数据库、Slack、浏览器,都按同一套协议把资源和工具暴露出来,模型客户端按同一套方式接入。

Long Context和Memory:模型带着历史工作

早期模型的context window只有几千token,一篇长论文、一份合同、一个稍微复杂的代码库,很快就塞不进去。用户只好把材料切碎,一段段问,模型也容易前面刚读过,后面就忘了。

2024年,长上下文变成一条明确赛道。Google在Gemini 1.5 Pro里把上下文窗口推到100万token,Claude、GPT、Qwen、Kimi也都在往长上下文走。

长上下文解决的是"这一轮能读多少"。Memory解决的是"跨会话能不能记住"。2024年OpenAI开始给ChatGPT做memory,让它记住用户偏好、写作格式、工作背景。到2025年,ChatGPT的memory进一步扩展,可以参考过去更多聊天历史。

这对个人助理和Agent很关键。一个长期帮你写文章的模型,如果记得你不喜欢什么句式、常写哪些主题、引用格式怎么放,下一次就不用从零交代。

把RAG、长上下文和memory放在一起看,LLM正在补三种"记忆能力":

RAG让模型查外部资料

长上下文让模型一次读更多现场材料

memory让模型跨任务记住长期背景

Agent要稳定工作,离不开这三层。


十、从模型竞赛到应用竞赛

2025年之后,竞争重心开始从模型竞赛移到应用竞赛。

基础模型公司不再满足于只卖API,SaaS公司也不再满足于只加一个AI按钮。大家都在往同一个方向挤:把模型接进真实工作流,让它能调用工具、读写数据、执行动作、交付结果。

Agent的产品化

先把"套壳"说清楚。早期很多AI创业公司做的就是这个:底层直接调用OpenAI/Anthropic/Gemini的API,外面包一层界面、提示词模板和收费页。换个垂直场景,写几组prompt,就说自己是AI写作、AI客服、AI销售。

这种套壳更接近AI-powered SaaS,未必是Agent。它本质上还是传统软件,只是在某个环节调用模型生成一段话。

真正的Agent要多几层东西:它要能理解目标,拆出步骤,选择工具,调用API,读取结果,发现错误,再决定下一步。它还要接权限、日志、审批、记忆、数据源和评测系统。

模型只是脑子,Agent产品还需要手、脚、眼睛、记录本和刹车。

2025年之后,变化更明显。过去很多创业公司在应用层套壳,现在基础模型公司直接下场做应用层。OpenAI先做Operator让模型用浏览器点网页,后来又把Operator、Deep Research、代码执行整合进ChatGPT agent。Anthropic把Claude Code、computer use、MCP一路往工具和开发者工作流里推。

这里的压力很现实:基础模型只卖token,容易变成云服务里的算力商品。应用层才离用户预算更近,也离企业流程更近。模型公司自己做Agent,本质上是在往SaaS和企业软件的地盘走。

Coding Agent最先跑通

Coding Agent最先成熟,原因很直接:代码场景天然适合Agent。

它有文件系统、终端、测试、编译器、Git、issue、CI。模型改完代码之后,系统可以立刻告诉它对了还是错了。这和很多办公场景不一样——写一封销售邮件好不好,往往要等客户反应;做一份战略报告好不好,判断很主观。代码更干脆:能不能编译,测试过不过,bug有没有复现。

所以AI coding工具很快从"补全一行代码"走到"处理一个任务"。Cursor、GitHub Copilot、Claude Code这类工具,已经开始读整个代码库、定位相关文件、修改多处代码、运行测试、根据报错继续修。

这正在改变程序员生态。最浅的一层,是补全代码、生成样板、解释报错,初级工作被自动化掉一大块。更深的一层,是AI开始进入代码审查、重构、测试生成、依赖升级、文档维护这些日常工程流程。

但这不等于程序员不重要了。变化更像是分工重排:写语法的价值下降,定义问题、拆任务、看架构、控质量、补测试、管安全的价值上升。

AI coding工具也解释了为什么未来Agent不会一下子横扫所有行业。它要有工具,要有反馈,要有边界。代码场景这些条件最齐,所以先成熟。其他行业要复制这件事,先得把流程、数据、权限和评测补起来。

多模态和Computer Use

这篇文章主要讲LLM,因为文字是大语言模型的主战场。但另一条线也在快速推进:图像、音频、视频生成式AI,已经从玩具走到产品。

多模态让模型能读图、听声音、看视频、理解屏幕。Computer use让模型看屏幕、移动鼠标、敲键盘,像人一样操作软件。OpenAI的Operator、Anthropic的computer use,都在往这个方向走。

未来Agent会有更完整的输入输出:能读合同PDF,看仪表盘截图,听会议录音,生成PPT,操作浏览器,甚至剪一段视频。LLM仍然是中枢,但它周围会接上视觉、语音、视频和操作系统界面。模型开始从"会说话"走向"会看、会听、会点、会做"。


结语

回头看这八年,大语言模型的发展可以压成一句话:一个为机器翻译设计的架构,被一路放大、驯服、商品化,最后变成了软件世界的新接口。

第一步是架构。Transformer解决的是RNN在翻译里的两个老问题:串行太慢,长距离关系容易丢。Attention把所有词之间的关系一次摊开,让GPU可以并行处理,也让模型更容易抓住长句里的依赖关系。2017年那篇论文真正打开的,后来成了整个LLM时代的计算底座。

第二步是路线分叉。Google拿encoder做BERT,主攻理解、分类、检索、问答。OpenAI拿decoder做GPT,押注生成和预测下一个词。当时看BERT更像正统NLP,GPT更像文字接龙。GPT-3之后,这个判断反过来了:只要模型足够大,生成能力会吃掉很多原本被认为需要专门设计的任务。

第三步是规模。GPT-3证明了一个反直觉事实:很多能力不需要逐项手写规则,也不需要每个任务单独训练,规模上去之后,模型会出现in-context learning这样的新行为。但规模不是一句"大力出奇迹"就完事。Megatron、GPipe、ZeRO、FlashAttention、KV cache、量化这些工程积累,才让大模型真的训得动、跑得起、用得上。

第四步是对齐。GPT-3很强,但不好用。InstructGPT和ChatGPT解决的是另一个问题:模型怎么听人话、按指令做事、少胡来。RLHF把人类偏好塞进训练流程,Anthropic的Constitutional AI又证明,对齐不一定只能靠海量用户反馈。预训练给模型知识,后训练把模型调成一个可以被普通人使用的产品。

第五步是生态。ChatGPT爆红之后,闭源和开源很快分成两套系统。OpenAI、Anthropic、Google、xAI把模型做成云服务、App和API,拼的是算力、产品、分发和企业销售。Meta、Mistral、DeepSeek、Qwen这些开源路线,把模型变成开发者和企业可以本地部署、微调、私有化的基础设施。今天的大模型竞争,早就超出了benchmark分数,开始比一整套产业组织能力。

第六步是效率。Chinchilla提醒大家,参数不是唯一尺度,数据也要跟上。MoE提醒大家,模型可以有很大总容量,但每次只激活一部分。开源模型能快速追上来,靠的不只是"追随前沿",也靠更会算账:同样的算力预算,怎么训得更久、喂得更准、跑得更便宜。

第七步是新Scaling轴。o1之后,推理时算力变成新的变量。过去主要在训练阶段砸钱,训出一个尽量强的模型;现在遇到数学、代码、科学题,还可以在回答阶段多花算力,让模型多试几条路、多检查几次。

第八步是系统化。RAG、长上下文、memory、tool calling、MCP、harness engineering,这些词看起来杂,其实都在回答同一个问题:模型怎么进入真实工作流。

所以这篇文章最后落到Agent,原因很简单:它把前面所有线索都收在了一起。没有强模型,Agent只会胡说。没有RAG和长上下文,它不知道该看什么。没有工具调用,它只能写建议,不能执行动作。没有harness,它进不了生产环境。没有业务流程改造,它也省不下真钱。

2025年之后,竞争重心开始从模型竞赛移到应用竞赛。基础模型公司往应用层走,SaaS公司往Agent化走,咨询公司和系统集成商重新变重要。企业最终不会为"更会聊天"长期付高价,企业愿意为更低成本、更快流程、更少错误付钱。

模型能力当然还会继续涨,但边际收益正在变小。更大的空间,可能在系统层:怎样把一个模型、几个小模型、外部工具、知识库、业务系统和人类审批组合成稳定流程。

过去十年,AI工程的主角是"训练一个更强的模型"。接下来几年,主角会越来越像"围绕模型搭一套能交付结果的系统"。

今天的大语言模型还远没有定型。它像早期互联网,也像早期云计算:底层技术还在变,商业模式还在试,泡沫和真需求混在一起。

但有一点已经很清楚:LLM不会只是一类聊天产品。它更像一层新的软件抽象,往下接数据、工具和算力,往上接人、流程和公司决策。

这就是过去八年真正发生的事:语言模型从一个会续写文本的神经网络,变成了一个可以被调用、被约束、被组合、被部署的通用计算零件。它还不稳定,也不便宜,更谈不上万能。但它已经足够强,强到整个软件工业都必须围着它重新排一遍位置。

P

王畅 · Polaris

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/17 1:01:44

电镀整流机生产厂家选择:靠谱供应商评估维度深度解析

电镀整流机生产厂家选择:靠谱供应商评估维度深度解析电镀整流机作为电镀工艺的核心动力设备,其性能直接决定镀层均匀性、生产良率与能耗成本。选择靠谱供应商需从技术适配性、生产实力、定制能力等多维度综合评估,本文结合行业实践&#xff0…

作者头像 李华
网站建设 2026/5/17 0:59:30

yolo系列网络结构图visio格式合集包含yolov3-yolo26各个网络结构图

网络结构图均从vision文件里直接导出图片格式,博文先给出网络结构图在visio里面到底什么样的,然后在文章最后汇总一个visio文件网络结构图下载列表。 yolov3yolov4yolov5网络结构图: YOLOv5网络结构图完整版: yolov8网络结构图完…

作者头像 李华
网站建设 2026/5/17 0:59:23

模块六-数据合并与连接——35. append 与 assign

35. append 与 assign 1. 概述 append 和 assign 是 DataFrame 的便捷方法: append:用于添加行(注意:Pandas 2.0 已弃用,推荐使用 concat)assign:用于添加列,返回新 DataFrame impor…

作者头像 李华
网站建设 2026/5/17 0:58:52

命令行知识管理工具brain-cli:极简设计助力开发者高效管理碎片信息

1. 项目概述:一个为大脑减负的命令行知识管理工具如果你和我一样,每天在终端、代码编辑器、浏览器和各种文档之间来回切换,脑子里塞满了零散的命令、代码片段、项目笔记和临时想法,那你一定理解那种“信息过载”的烦躁感。传统的笔…

作者头像 李华
网站建设 2026/5/17 0:58:21

Topit:macOS窗口置顶的终极解决方案,开源高效的多任务开发利器

Topit:macOS窗口置顶的终极解决方案,开源高效的多任务开发利器 【免费下载链接】Topit Pin any window to the top of your screen / 在Mac上将你的任何窗口强制置顶 项目地址: https://gitcode.com/gh_mirrors/to/Topit Topit是一款专为macOS系统…

作者头像 李华