news 2026/4/27 10:17:34

小模型也能当“Agent“!腾讯阿里论文揭示AI开发新范式!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小模型也能当“Agent“!腾讯阿里论文揭示AI开发新范式!

腾讯最新论文展示了一个仅有1.96B参数的语言模型,通过从零开始训练,就能够像agent一样进行规划、推理和工具调用。这篇论文的核心亮点在于,它证明小模型可以在预训练阶段就被“教导”出agentic行为——模型学会将任务分解成多个步骤、调用工具、在长流程中跟踪状态并进行自我纠错,而不是仅在指令微调后才“听起来很有帮助”。该模型通过Multi-Latent Attention机制压缩历史记忆(KV缓存),实现了128K的长上下文处理能力,从而能一次性读取大量输入文本。它针对的主要问题是:小模型在单轮问答中表现尚可,但一旦任务变长就容易“断线”或丢失上下文。

不同于直接蒸馏大模型的做法,该论文的训练策略逐步转变:先从日常文本开始,然后转向数学和代码领域,最后进入agent轨迹(agent trajectories)训练。每条agent轨迹都被设计成完整的工作流形式,明确分为分析(analysis)、计划(plan)、行动(action,包括工具调用)、自我检查(self-check)和总结(summary)五个部分。研究团队为多种场景生成了这些工作流,包括数学求解、真实GitHub仓库的代码修复、带搜索工具的深度研究以及通用工具调用。通过“agentic中训练”(agentic mid-training),模型在预训练过程中大量学习这些完整工作流,从而将规划和错误修正内化为自然行为。

在SWE-Bench Verified(GitHub真实bug修复基准)上,加入agentic中训练后,模型成功率从12.4%提升至17.7%,展现出显著进步。

https://arxiv.org/pdf/2512.22047

阿里的MAI-UI-2B是一个专为gui agent设计的2B参数基础模型,基于Qwen3-VL骨干,针对真实世界移动交互场景优化。该模型通过自进化数据管道扩展导航数据,融入用户交互(ask_user)和多模态控制协议(MCP)工具调用,支持点击、滑动、输入、询问用户、MCP调用和回答等扩展动作空间,实现超越UI的操作。其创新包括本地设备-云协作系统,根据任务状态和数据敏感度动态路由执行,提升设备端性能33%并减少云调用超过40%;此外,采用在线强化学习框架,扩展并行环境至512并增加步骤预算至50,显著提升鲁棒性。实验中,MAI-UI-2B在AndroidWorld上达到49.1%成功率,相对提升75.4%,在ScreenSpot-Pro等GUI grounding基准上也超越Gemini-3-Pro等模型,标志着高效、可扩展gui agent的重大进步。

https://arxiv.org/abs/2512.24618

基于这些资料,我更坚定地认为未来是混合模式:大基座统领多小模型,形成MoE(Mixture of Experts)式生态。为什么?小模型的崛起不是孤例,NVIDIA的论文《Small Language Models are the Future of Agentic AI》(arXiv:2506.02153)直接支持:SLMs(小模型)更适合Agentic AI,因为它们高效、经济,能替换40-70%的LLM调用。

小模型优势(从腾讯/阿里可见):

  • 专精与分布式:如Youtu-LLM的Agent轨迹训练,MAI-UI的GUI优化。小模型像“乐高积木”——一个管视觉,一个管工具,鲁棒性强、隐私好。NVIDIA指出,SLMs在重复任务中性能媲美LLMs,但推理延迟低、部署易。
  • 经济性:参数少,跑在边缘设备,成本降80%以上。X上讨论提到,小模型开源友好,社区能快速迭代。

大基座优势:

  • 统一协调:如Qwen-Max或Llama-405B,负责任务路由、复杂推理。IBM报告预测:大模型做“统帅”,小模型做“士兵”。

趋势预测:

  • 混合时代:NVIDIA倡导异构系统——SLMs默认,LLMs选调用。Red Hat认为,企业不需要“一刀切”大模型,小模型更可定制。 腾讯小模型可做执行层,阿里MAI-UI做端侧代理,大基座云端规划。
  • 挑战与机遇:协调开销需优化(如MoE架构)。X帖子提到,多小模型在idea生成和研究中可能超大模型,但需支持生态。

总之,这些资料让我看到,小模型的“干大事”潜力正重塑Agent开发。纯小模型适合轻量场景,纯大基座适合复杂决策,但主流将是“大统领小”。开发者们,不妨从腾讯/阿里开源起步,构建混合Agent!

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓

学习路线

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/26 3:50:52

Redis键过期不触发?解决PHP应用中缓存未及时更新的5步排查法

第一章:Redis键过期不触发?问题背景与影响在高并发系统中,Redis 常被用于缓存、会话管理、限流控制等场景,其键的自动过期机制(TTL)是实现资源自动清理的核心功能之一。然而,部分开发者反馈&…

作者头像 李华
网站建设 2026/4/25 18:45:38

必看!2026年最佳产品介绍二维码推荐榜单

在2026年,二维码技术在信息传播中占据了重要的位置,特别是在产品宣传中发挥了巨大的作用。二维码不仅便于快速获取信息,还能通过连接多种媒体内容提升用户体验。企业能通过产品介绍二维码、说明书二维码和二维码标签,增强客户粘性…

作者头像 李华
网站建设 2026/4/25 14:27:36

从“救火”到“预警”:构建增长中台的可观测性体系

本文是「架构师的技术基石」系列的第3-3篇。查看系列完整路线图与所有文章目录:【重磅系列】架构师技术基石全景图:以「增长中台」贯穿16讲硬核实战 引言:凌晨三点的“数字迷宫” 深夜的告警铃声格外刺耳:“策略决策服务错误率超…

作者头像 李华
网站建设 2026/4/22 2:08:24

今日头条创作者如何用HeyGem提升发文频率?

今日头条创作者如何用HeyGem提升发文频率? 在内容为王的时代,更新频率几乎直接决定了一个头条创作者的生死线。平台算法青睐持续活跃的账号,用户也更愿意关注那些“每天都有新东西”的博主。但现实是,大多数创作者卡在了生产环节—…

作者头像 李华
网站建设 2026/4/20 2:23:51

揭秘PHP大数据迁移难题:3步完成分库分表无缝切换

第一章:PHP分库分表迁移的背景与挑战随着业务规模的快速增长,传统单一数据库架构在高并发、大数据量场景下逐渐暴露出性能瓶颈。PHP应用常依赖MySQL存储数据,当单表数据量超过千万甚至上亿时,查询延迟、锁竞争、备份恢复困难等问题…

作者头像 李华