news 2026/4/15 15:00:58

【值得收藏】Agent自我进化新范式:无需人类干预,自己造工具,开源框架助力大模型开发

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【值得收藏】Agent自我进化新范式:无需人类干预,自己造工具,开源框架助力大模型开发

文章介绍了一种"原位自进化"Agent框架,它能在推理阶段自动创建工具,实现自我进化。这种Agent无需预先训练或人类干预,能边处理任务边创建所需工具,并在多个评测中表现优异。该"工具优先"策略已开源,为解决大模型应用的开放性、可控性和经济性"不可能三角"提供了新思路,有望推动开源AI发展。

Skills刚爆火,又有新的Agent范式来搅局了……

根本不用Skills,也不需要上GitHub翻项目、找工具。直接把需求丢给Agent,它能一边干活,一边给自己造装备。

是的,完全不需要人类伺候,也不用给AI师傅递板手、搬梯子。

工作中遇到啥需要用的装备,Agent能自己直接「进化」出来。

以Gemini 3 Pro为后端,在地狱级评测HLE*(Humanity’s Last Exam)*上一骑绝尘,仅次于GPT5.2-Pro智能体。

在几个高难评测集里,比官方未披露方法的含工具使用的结果,高了将近20分

甚至还是One take,一口气跑出来的。

这是刚刚新发的一篇论文。

会自己造工具的Agent

发现这篇论文,还是因为前几天刷到了个demo。

第一眼看上去,只是个很普通的交互场景:用户有个任务需求,丢给了Agent一串Prompt。

找找2023届毕业生中,哪些州的ACT考试参与率达到或超过50%,且平均综合分数在20分及以上。并给出这些州中,各州学生达到科学基准的比例。

然后Agent开始做分析、规划任务,挑选可能会用到的工具。

目前为止,一切都还很正常。

但说实话,感觉这个demo选的任务不是很好,太开放,不像是现有工具能一次解决的,估计得迭代对话不少次。

嚯!果然出问题了,工具不够用,干不下去。

诶,等一下……

它怎么开始自己造工具了??用错了还能修复?

有点过于魔幻了啊。感觉就像动物园里,前一秒还躺着剥香蕉的猩猩,转头一看,一个跟头翻起来,开始钻木取火了。

我赶紧把论文翻出来,从头到尾扒了一遍,

不看没事,这一看,扒出来一堆更让人细思极恐的细节。

这家伙,居然靠这种方式,在只有一次答题机会的5个评测集中,造了128个工具!!

是的,白手起家,从0开始,一个一个捏到了128。

简直是天崩开局。

更惨的是,研究人员还一上来就把它扔进了地狱级的Benchmark—HLE*(Humanity’s Last Exam)*上,和基于GPT、Claude、Gemini的这些Agent怪物同台竞争。

不过,意料之外的事情发生了。

遇到「打」不过的题目,这家伙居然会自己造武器

一路边打怪,边合成装备。

等把HLE两千多道题刷完,它已经悄悄攒了97把大宝剑。

这还没完,它又背着这九十多把大剑,前往了更多样的Benchmark试炼场——DeepSearchQA、FinSearch Comp、XBench

还是故技重施,继续造工具,继续打怪升级。

一直刷到将近4000道题时,它突然停了,不造装备了。

趋势上也有迹可循,下面这条曲线,前期增速很快,后面明显开始出现边际效应递减。

最终,工具数量稳定收敛在128个。

像是知道这些已经够用了一样。

按特定顺序的工具数量随处理的query数统计图

这点非常关键。说明前面的工具不是乱造的,而是真的具备可复用性

所以在积累到128个工具时,Agent才会突然发现:旧工具已经可以覆盖绝大多数新任务,没必要继续扩张。

再看这张图更直观——两种策略下的Agent性能统计对比,ZS代表从零工具起手,WS代表前面说的按数据集顺序的知识迁移策略。

在WS策略下可以明显看到:旧工具越多,新工具越少。甚至在最后两个XBench阶段直接归零。

不同策略下的Agent性能统计

下面这张图更有意思,这是这个Agent最爱用的50个工具。

工具使用频率统计图

排名第一的是「网页搜索」,断崖式第一。

后面跟着的也都很眼熟:内容获取、计算器、文件下载、学术论文搜索、PDF处理……

简直和人类的工作习惯一模一样啊,都是些通用的基础工具。而且复用率非常高,马太效应极其明显。

这么看来,它可能真不是为了造工具而造工具,而是真的像人一样,在工作过程中沉淀出了一套方法论,并且能在不同任务之间迁移。

实验结果也印证了这一点。

这只会自己造工具的Agent,在刚刚说的那五项Benchmark上,几乎全部一骑绝尘。

全方位碾压基于Gemini 3 Pro的Agent,在需要复杂检索与推理的任务中,甚至能高出十余个百分点。

原位自进化框架

怎么做到的?

研究团队用了一种全新框架,叫原位自进化(In-situ Self-evolving Agent)

第一眼没太看懂,但隐约感觉是个很性感的概念。

仔细研究了一下,发现行业其实一直在做自进化*(Self-evolving Agent)*,但和原位自进化是两件事。

普通自进化,大都发生在训练阶段。高度依赖高质量外部监督信号,必须有专家提前选定进化领域,一个模型出题或标注好答案,再让新模型基于这些标注题目,开始最大化目标函数的进化。

这种模式呢,往往是基于一个长期目标做优化,可以从根本上重塑模型的大脑。

最常见的交付结果,就是现在各种模型厂商在做的:炼丹,发一款新模型上来炸场。

但缺点也很明显。

工程量巨大,反馈链路极长,因此只能在训练阶段完成。一旦上线,就没有「进化」这一说了。

而原位自进化,是一种发生在推理阶段的自进化。

不需要外部监督,也没有真值,光靠模型推理时的内部反馈,以及上一次交互中积累的经验,就能蒸馏出可复用的通用技能。

换句话说,只要上线,模型就能做到「边做边学」。

读到这里,肯定有读者要问了:

这难道就是AI行业一直苦苦追寻的明珠,自主学习吗?

只要训一次,后面就能在线上不断习得新能力,甚至抵达智能爆炸的奇点,实现ASI。

事实上,在2025年的云栖大会上,阿里CEO吴泳铭就曾指出:

ASI一定会到达,并且此前的一个关键节点,就是AI能够自进化。

但值得注意的是,行业在谈ASI的这种自进化时,更多还是指参数层面。

而原位自进化关注的是另外三件事:工作流、记忆、工具

肯定不是那么「终极」的解决方案,但也更现实可行,马上就能开始干。

记得几周前参加大模型清华论剑时,也听到姚顺雨提过类似观点:

自主学习其实已经发生了,ChatGPT会根据对话过程不断拟合聊天风格,Claude的Agent代码库95%都是模型自己写的。

云玦科技的Agent,正是采用的这种现在就能落地的「原位自进化」,但他们走的路线比较特殊——工具优先。

团队认为,工作流路线,容易对少数任务过拟合,思路一旦固化,很难泛化;

而记忆路线,又绕不开LLM天然存在的幻觉问题,一旦Token上来,偏差会像雪球一样越滚越大。

从第一性原理出发,工具才是最符合直觉的进化载体。

首先,工具直接决定了Agent的能力边界

人类基于地球资源制造的一切奇观,都是以新的生产工具为基础。AI也一样,积累再多上下文,没有铲子,也只能坐在金矿上发呆。

其次,工具执行天然自带高质量监督信号,不需要人类标注

工作流好不好、记忆靠不靠谱,很主观;但工具能不能用,直接看代码报没报错就行。这就是所谓的二元判别信号(Binary Feedback)

并且,通过形式化验证的代码,可以最大程度保证安全性,放心让Agent去执行API调用、数据库读写这些底层操作。

也不用担心会不会捡了芝麻丢西瓜。待工具基本收敛后,再去补齐工作流和记忆,依然来得及。

基于上述思考,团队以「工具优先」为理念,打造了一支可实现原位自进化的Agent军团

由四个角色组成——

首先是管理者(Manager),负责统筹大局。

在收到用户需求后,它会分析任务、拆解目标,并与现有工具库对齐,看看有没有现成工具可用。

如果发现能力不足,管理者就会指挥工匠(Tool Developer),现场捏一个工具,并立刻在当前上下文中完成配置。

准备就绪后,执行者*(Executor)*会拿这些工具开始处理任务。

如果发现还是搞不定,它会暂停执行,向管理者汇报。

管理者收到信息后,重复前面的流程,继续补工具、补能力,直到任务能完整跑通为止。

任务完成后,交给整合者(Integrator),对执行历史和中间结果进行整合,生成最终回答。

还有最后一步。

对话结束后,系统会对整个过程进行复盘,更新自己的工具库,并将迭代过程蒸馏、沉淀为可复用的方法论。

为了能更好地监测Agent的进化情况,团队还引入了个叫「测试时收敛」*(Test-Time Convergence)*的定量指标,作用和传统优化中的Training Loss类似,方便直观感受AI的学习情况。

听上去简直是个完美的解决方案,但在实际操作中遇到了问题。

如果严格按这条路线来,进化流程非常长,而且Agent必须一个任务跑完,才能进化一次,效率实在太低。

于是,团队引入了Parallel batch

别一个一个跑了,直接把一批相似任务打包在一块,一起丢给Agent。

等着一整个Batch跑完后,Agent就能得到一个巨大的经验包,一次性喂饱知识库。

至此,一只能从零开始自我进化的Agent,诞生了。

无需任何事先训练,完全依靠工具的自进化来拓展能力,还在各种Benchmark上取得媲美SOTA的成绩。

最后再划个重点——

这套能媲美SOTA的自进化框架,还是开源的。包括上述实验的所有日志数据,评测脚本和结果,也都向社区开放。

又是一套可以直接落地部署的开源方案。

又是一项来自中国团队的研究。

只花了15万元实验经费的研究团队

这支团队来自云玦科技,这是前阿里巴巴集团副总裁彭超创办的AI公司,剑指可穿戴通用智能体。

而这篇论文的通讯作者,正是云玦科技的联合创始人兼CTO——齐炜祯

齐炜祯曾任中关村人工智能研究院研究员、中关村学院大模型博士培养方向导师。现在虽然投身AI创业,但仍以兼职身份担任中关村学院的科研共建导师。

他是MTP架构*(ProphetNet)*的第一作者。这套多词元预测方法,在Meta研究机构FAIR 2024年的高影响力论文 Better & Faster Large Language Models via Multi-token Prediction中,齐炜祯第一作者研发的ProphetNet,被明确视为提出多Token预测架构的原创来源和定义出处。

工业界也在为这项研究背书,DeepSeek V3、Qwen-3-Next等多款主流大模型,当将其作为核心预训练方法。

量子位听说,DeepSeek今年年底即将发布的新架构论文,依然会引用这项工作,Qwen 3.5大概率也会继续沿用。

齐炜祯本科就读于中科大,最早学的是物理,后来转向计算机。

本科毕业后,他成为中科大与微软亚洲研究院的联培博士生,在这里积累了大量偏工程落地、以实际应用为导向的科研经验。

ProphetNet就是其中之一,除此之外,他还是Visual ChatGPT的核心作者。

该项目开源仅一周就收获了3万Star,开创性地定义了以LLM为中心的、调用多模态工具以完成复杂视觉任务的Agent范式。

在推理优化方面,他是业界首批提出KV Cache优化*(EL-Attention)*的学者,其核心思想与后来DeepSeek提出的MLA等高效推理部署算法高度一致。

谷歌学术显示,齐炜祯的论文引用数已超过3000,h-index为17。

这篇论文的一作有两位,都是在云玦科技实习期间参与的这项工作。李昊天,哈工大博士生,杨释钧,中科大硕士生,他们在此之前都有多段大厂的实习经历。

还听说个有意思的事。

论文里的所有数据集和实验结果都是One take,完全靠同一个架构,一口气跑出来的。

这当然说明了这项工作的稳健性。但事实是,就算结果不好,也只能认栽。

团队只设定了15万元的研究经费,也就只够跑一次完整的推理实验。

也正因为如此,他们最开始也没法选择那些依赖大量人类标注、需要反复调参的方案。

只能赌一把。

赌原位自进化,赌「工具优先」,赌Agent能自己涌现出通用能力。

开源阵营的又一核武器

对于To C场景来说,AI始终面临着**「开放性、可控性、经济性」的不可能三角**。

LLM虽能处理开放性问题,但幻觉始终是硬伤,这在金融、医疗等场景下是不可容忍的。更别说,还要时刻面对防不胜防的提示词注入攻击。

成本同样是个大问题。完全依赖大参数模型的CoT推理,在To C服务动辄亿级日调用量的背景下,得烧出来个天文数字。

为了解决这个问题,垂直Agent应运而生。

提前把流程给设计好,工具也是固定的,以换取极低的成本和极高的安全性。

但代价也很明显:几乎没有自由度,Agent只能处理像「预定机票」这样的标准化需求。

可真实世界的人类需求,永远是高度发散的。就拿订机票这件看似没什么技术含量的事来说:

老板想订去巴黎的机票,但他护照快过期了,先帮我查一下签证加急流程,再决定要不要订。

这还只是一个例子,不同长尾场景下需要的新Context千差万别,不可能每个都能提前覆盖到。

而一旦用户意图超出了预设流程的边界,系统要么瘫痪,要么陷入死循环。

想要同时兼顾安全性、低成本,又能处理开放性需求,唯一的路,只能是让Agent在真实工作中学习。

这正是这篇论文给出的答案——「工具优先」的原位自进化。

能力边界的问题,可以交给工具集来解决;可控性,也能通过代码的执行反馈来约束。

甚至工作流也能自进化,通过模拟大量长尾场景,靠自我博弈与经验蒸馏,不断生成新的策略组合,探索各种工具组合路径。

而一旦某条路径被反复验证有效,它还会被「固化」为静态模板。遇到用户请求,Agent可以优先匹配这些模板,如果合适,直接填参数执行即可,无需再跑一遍昂贵的大模型推理。

关键是,这套能「越用越好用」的自进化架构,是开源的。

从工业角度来看,这个项目还和常规的AI开源项目不太一样。

事实上,今天虽然已经有很多开源模型,但开源阵营的整体声势**,远没达到当年Linux在互联网时代那种级别**。

没办法,Linux的飞轮太容易转起来了,只要代码不报错,通过审核就能合并上线。

所以,就算Linux最开始只有1000个社区成员,他们每天能贡献的代码量也是相当恐怖的;而Linux每一次进化,又会吸引更多开发者参与,这是典型的网络效应

AI很难这么做,反馈路径太严格,对数据质量的要求极高。

这种时候,用户增长基本对模型能力没什么贡献,最多能反映出个宏观偏好,还会持续消耗昂贵的推理算力。

这也是为什么MiniMax CEO以及不少AI创业者都认为:AI产品的用户太多,未必是好事

但这个问题,并非没有解法。

Skills的爆火已经证明——

开源始终是一座金矿,只是需要合适的工具去开采。

Skills是开始,原位自进化,走向Zero Skill,或许是下一步。

以DeepSeek为代表的一众开源模型,已经在全球范围内铺开了足够大的市场。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/7 19:58:49

常见问题及参考链接

1、ubuntu 搜狗输入法安装 和 无法输入中文 https://blog.csdn.net/ytusdc/article/details/132378645 2、Ubuntu 20.04 中 Git 的安装、配置和基本操作指南 https://blog.csdn.net/m0_73359068/article/details/146930790 3、

作者头像 李华
网站建设 2026/4/5 19:49:45

搞定 Nginx 生产部署:避坑指南 + 最佳实践

先灵魂拷问一下:写了一堆接口却不会部署?服务器被恶意请求打崩过?静态资源加载慢到用户想摔手机?别慌!Nginx 作为后端工程师的「部署瑞士军刀」,能搞定反向代理、负载均衡、限流防刷等一堆骚操作。记住咯&a…

作者头像 李华
网站建设 2026/4/8 16:14:18

基于LangChain手工测试用例生成工具

在编写测试用例的过程中,测试工程师会通过需求文档,研发的概要设计等信息编写测试用例,测试用例的输出格式常常为思维导图或者excel等数据信息。 在以上的流程中,一个测试工程师可以根据比较详细的需求文档以及研发的概要设计输出…

作者头像 李华
网站建设 2026/4/1 3:06:39

接口性能优化的11个小技巧

接口性能优化 对于从事后端开发的同学来说,肯定再熟悉不过了,因为它是一个跟开发语言无关的公共问题。 该问题说简单也简单,说复杂也复杂。 有时候,只需加个索引就能解决问题。 有时候,需要做代码重构。 有时候&am…

作者头像 李华
网站建设 2026/4/14 10:40:04

git个人开发流程

1. 标准开发流程 (针对个人项目) 第一步:同步主分支 (保持起点最新) # 1. 切换回主分支 git checkout main# 2. 拉取远程最新代码 (防止你在这个设备开发时,在另一个设备Push过代码) git pull origin main 第二步:新建并切换分支 不要在 …

作者头像 李华