news 2026/4/15 19:58:49

AI Agent之一:不可能三角

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI Agent之一:不可能三角

从一篇文章聊起

Anthropic的论文building-effective-agents,是2024年10月发布的一篇解析Workflow和AI Agent关系的论文,详细解读可参考如何构建智能体。

从这篇论文能看出,2024年Workflow仍是主流,AI Agent尚未普及,但这篇文章极具旗帜意义——它首次清晰梳理了Workflow与AI Agent的内在关联,为后续AI Agent的工程化落地奠定了Workflow设计的基础。文章对Workflow的范式做了详细论述,对AI Agent的介绍却语焉不详,仅简单提及AI Agent的架构本身是简洁的

AI Agent火起

Claude Code于2025年2月推出,同年10月网页版上线后,短短数月便快速爆发,随后还出现了Skill相关玩法,行业普遍认为,AI Agent的元年正式到来。

2024年的论文中已有AI Agent的概念,为何直到2025年底才迎来爆发?核心原因是此前存在工具调用准确率的关键性限制。

2025年下半年,OpenAI O3、Claude 4.5等标志性推理模型相继发布,这些基座模型的推理能力实现了质的提升,让工具调用准确率大幅提高。技术瓶颈突破后,AI Agent便迎来了全面爆发。

如今各类AI Agent开发手册层出不穷,可预见头部公司必将推出Agent SDK抢占市场,开发者无需再从0开始自研AI Agent。而要做好AI Agent开发,首先要理解其核心本质。

AI Agent的本质

聊到这里,我们不妨思考:AI Agent的本质是什么?它是一套完整的智能系统,核心链路可概括为大模型→上下文→应用,其中上下文是影响系统表现的核心环节。

我们用计算机系统做个类比:大模型是AI Agent的“CPU”,为整个系统提供核心推理动力;对应的,Workflow和AI Agent框架则相当于计算机的“操作系统”——操作系统的核心是统筹管理CPU、内存、外设等全资源,这类框架的核心则是统筹调度任务规划、工具调用、上下文管理、任务状态监控等Agent全环节。其中,上下文是框架所管理的“核心数据资源”,类似操作系统管理的内存数据;框架则是上下文的“统筹管理载体”,让上下文的价值得以有效发挥。

Claude Code的诸多设计思路,本质都是围绕上下文管理展开的。例如Skill的设计细节:先加载不超过200字符的Skill描述,再根据使用决策加载具体的Skill。这一设计的核心,就是通过轻量描述+按需加载的精细化上下文管理,既规避了上下文窗口的限制,又缓解了注意力有效性衰减的问题。

可以说,上下文的工程化管理能力,直接决定了AI Agent应用的实际表现。即便AI Agent框架能处理大部分通用的上下文问题,但每个应用都有自身的业务特点,唯有深入理解上下文的管理逻辑,才能构建出贴合场景的优秀AI Agent。

不可能三角

AI Agent的落地过程中,存在一个经典的不可能三角:

准确性 (Accuracy) ▲ /│\ / │ \ AI Agent 不可能三角 / │ \ (同时优化三者) / │ \ / │ \ / │ \ 延迟 ←───┴─────→ 成本 (Latency) (Cost)
  • 准确性:把事做对、做好,输出结果贴合实际需求且无差错;
  • 延迟:完成一次任务的全链路耗时,从接收需求到输出有效结果的总时间;
  • 成本:完成任务的综合代价,主要包括算力、工具调用的资金成本,以及研发、运维的精力与资源投入。

这三者无法同时做到极致,优化其中一个或两个维度,必然要在剩余维度做出妥协:

  • 想把事做得又对又好(高准确性),要么增加资金与资源投入(高成本),要么接受更长的任务处理时间(高延迟);
  • 想又快又好地完成任务(低延迟+高准确性),就必须投入更多的算力、研发等资源(高成本);
  • 想又快又省钱地完成任务(低延迟+低成本),则难以保证结果质量,易出现差错(低准确性)。

为何会产生这个不可能三角?并非单一的大模型约束所致,而是AI Agent端到端全链路的多层核心约束叠加的结果。其中大模型的固有特性约束是底层核心,再叠加工程落地过程中算力、流程编排、任务执行等环节的配套约束,最终形成了三者的制衡关系。

基于此,我们提炼出当前阶段影响AI Agent从“可用”到“好用”的TOP3核心约束。之所以聚焦当前阶段,是因为工具调用准确率是AI Agent从“概念”到“可用”的关键突破因素,该问题解决后,上下文相关约束便成为AI Agent从“可用”到“好用”的核心矛盾。

约束限制解决方案
上下文窗口2025年上半年主流模型的120K tokens硬限制,超量则无法处理批量工具处理数据 + Top-K 摘要保留核心信息,减少上下文数据量
注意力有效性上下文超50K tokens后,模型任务准确率显著下降分层按需加载内容,压缩冗余信息,降低模型注意力负荷
长任务连续性多步执行易偏离核心目标,任务连贯性大幅下降记录每步任务节点状态,持续锚定总目标,避免执行漂移

这三个约束,是我们理解并深入AI Agent设计的核心着力点。以上下文窗口为例,如今模型能力已实现大幅进步,远超此前的120K tokens,不少模型支持200K tokens,1M tokens(1000K tokens)的模型也屡见不鲜。在实际任务执行中,每次工具调用仅新增数K tokens的上下文,足以支撑长时间的连续调用,多数任务已不会超出上下文窗口的硬限制。此时,上下文窗口的限制已非当前主要矛盾,而上下文窗口规模超出模型注意力有效阈值引发的注意力漂移,才是核心问题。这也是为何在一些长任务中,部分指令表述明确,大模型却无法精准响应执行的关键原因。

总结

AI Agent的元年已至,开发出贴合场景、表现优异的AI Agent是所有开发者的共同目标,但这并非仅依靠一款优秀的AI Agent框架就能实现。其核心在于真正理解AI Agent的本质,掌握上下文管理的工程化能力,唯有如此,才能让AI Agent的价值在实际场景中充分落地。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 0:29:41

nodejs基于vue网上订餐系统的设计与实现_i23b2

文章目录基于 Node.js 和 Vue 的网上订餐系统设计摘要技术栈与核心功能系统亮点性能与扩展性--nodejs技术栈--结论源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!基于 Node.js 和 Vue 的网上订餐系统设计摘要 该系统采用前后端分离架构…

作者头像 李华
网站建设 2026/4/14 1:26:19

掌握技巧:彻底消除错误代码0x80004005带来的困扰

在数字时代,几乎每个人都会遇到计算机错误,这些错误有时会阻碍我们的工作,甚至影响日常生活。在众多令人困惑的错误代码中,0x80004005是一个特别常见但通常又难以理解的错误。这个错误代码通常表示未指定的错误,它可能…

作者头像 李华
网站建设 2026/4/9 18:53:51

nodejs基于vue电子产品商城销售网站的设计与实现

文章目录设计目标技术架构核心功能性能优化测试与部署--nodejs技术栈--结论源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!设计目标 该系统旨在构建一个基于Node.js和Vue.js的电子产品商城,实现用户注册登录、商品展示、购…

作者头像 李华
网站建设 2026/4/9 2:55:21

APS概念-可承诺量 / 承诺能力拉动容差

一、核心概念解读可承诺量 / 承诺能力拉动容差是 APS 系统在计算 ATP(可承诺量)和 CTP(承诺能力)时的关键参数,它定义了系统在寻找最优交付日期时的时间搜索范围,直接影响计划的精准性和计算效率。二、关键…

作者头像 李华
网站建设 2026/3/27 18:49:58

问题记录与反思

一、问题复盘 正式版图片不显示问题:小程序开发版、体验版中图片展示正常,但发布至正式版后图片完全不显示。经排查,核心原因是后台返回的图片 src 为 //xxx.png 格式(缺失 HTTP/HTTPS 协议),测试环境对协…

作者头像 李华
网站建设 2026/3/27 5:01:54

告别信息孤岛,商联达让总部-区域-门店数据实时同频

在消费市场日益多元、连锁经营规模持续扩张的今天,“总部统筹全局区域灵活适配门店精准落地”成为企业突围的核心诉求。然而,传统经营模式下,数据割裂形成的“信息孤岛”,却成为制约企业发展的隐形壁垒:总部难以及时掌…

作者头像 李华