news 2026/5/28 5:12:16

【系统学AI】06 AI Agent学习总览:从Chatbot到Agent OS的进化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【系统学AI】06 AI Agent学习总览:从Chatbot到Agent OS的进化

2024年最热的AI话题是大模型,2026年最热的不是更大的模型,而是让模型"动手干活"——这就是Agent。从早期的AutoGPT到现在的Computer Use Agent、Manus、Claude Code,Agent已经从"实验"进入"操作系统层"。


一句话总结

AI Agent = LLM + 感知 + 规划 + 工具调用 + 记忆 + 长程自主。它不只是聊天,而是能自主完成多步骤任务。从Chatbot到Agent,是从"回答问题"到"解决问题"的质变;2026年的Agent又进一步——从"调用API"进化到"操作真实电脑",AI正在从"答题层"变成"操作层"。


1. 什么是AI Agent?

1.1 定义

Agent是一个能感知环境、做出决策、采取行动以实现目标的自主系统。

在LLM语境下:

LLM(大脑)+ 工具(手和脚)+ 记忆(经验)+ 规划(策略)+ 长程自主(耐力)= Agent

💡2026年的关键变化:原来Agent的"工具"只是API调用,现在加上了"操作真实电脑"(Computer Use)——Agent可以直接看屏幕、移动鼠标、点击按钮、敲键盘。这把Agent的能力边界从"程序员定义的API集合"扩展到了"任何人类能在电脑上做的事"。

1.2 与Chatbot的区别

维度ChatbotAgent
交互模式一问一答多步自主执行
工具使用可调用API/搜索/代码执行/操作电脑
记忆无/短期短期+长期记忆+持续学习
目标回答好一个问题完成一个任务
自主时长单轮(秒级)数分钟到数小时(GLM-5.1可达8小时)
示例“解释量子力学”“帮我调研竞品并写综述报告”

1.3 生活中的类比

概念类比
LLM一个只会说话的顾问
Chatbot顾问+电话(只能对话)
Agent顾问+电脑+手机+秘书(能执行任务)
Computer Use Agent会用你电脑的实习生(可以打开任何应用、操作任何界面)

2. Agent的核心组件(2026六大件)

2.1 六大组件

┌─────────────────────────────────────────────────┐ │ Agent │ │ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ │ │ 规划 │ │ 记忆 │ │ 工具 │ │感知层│ │自主层│ │ │ │Plan │ │Memory│ │Tools │ │Sense │ │Auto │ │ │ └──┬───┘ └──┬───┘ └──┬───┘ └──┬───┘ └──┬───┘ │ │ └────────┼────────┼────────┼────────┘ │ │ │ │ │ │ │ └────────┼────────┘ │ │ ┌────┴────┐ │ │ │ LLM │ │ │ │ (大脑) │ │ │ └─────────┘ │ └─────────────────────────────────────────────────┘

规划(Planning):把大目标拆成小步骤,决定执行顺序

记忆(Memory):⭐ 2026年Agent发展最快的领域

  • 短期记忆:当前对话上下文
  • 长期记忆:历史交互、知识库、用户画像
  • Memory工程:MEMENTO(微软)、claude-mem、cognee、Zep等专项工具爆发

工具(Tools)

  • 搜索引擎、代码执行器、API调用
  • 文件读写、数据库查询
  • MCP协议:2024年11月Anthropic推出,2025年12月捐赠Linux基金会,2026年成事实标准,全球5000+ MCP Server可用

感知层(Sense):⭐ 2025-2026 新增能力

  • 屏幕理解(Computer Use)
  • 多模态输入(图像、视频、音频)

自主层(Autonomy):⭐ 2026新维度

  • 长程任务执行(GLM-5.1单任务可跑8小时/1700步)
  • 定时调度(Claude Code的/schedule
  • 事件驱动(Routines研究预览)

LLM(大脑):理解指令、推理决策、生成响应

2.2 Agent Loop

Agent的核心运行循环:

1. 接收任务/观察环境 2. LLM思考:当前状态是什么?下一步该做什么? 3. 选择并执行动作(调用工具/操作电脑/生成文本) 4. 观察执行结果 5. 更新记忆(短期+长期) 6. 回到步骤2,直到任务完成

这是经典的OODA循环(Observe-Orient-Decide-Act),2026年加上了"Memorize",变成OODA-M循环。

💡OODA循环:观察-定向-决策-行动循环,由美军飞行员John Boyd提出,原本用于战斗机空战决策。AI Agent借用这个框架描述"持续感知环境并行动"的运行机制。


3. Agent vs Workflow:关键区分

这是理解Agent最重要的一组概念。

3.1 Workflow(工作流)

人定义路径,AI执行步骤

用户 → 步骤1(搜索) → 步骤2(总结) → 步骤3(翻译) → 输出
  • 路径是固定的
  • AI只在每个步骤内做"填空"
  • 确定性高,可控性强
  • 适合流程明确的任务

3.2 Agent(自主代理)

AI定义路径,自主决策

用户 → Agent思考 → 调用工具A → 观察结果 → Agent思考 → 调用工具B → ... → 输出
  • 路径是动态的,由Agent实时决定
  • Agent根据中间结果调整策略
  • 灵活性高,可控性低
  • 适合开放性、探索性任务

3.3 何时用Workflow,何时用Agent?

场景推荐方案原因
客服FAQWorkflow流程确定,不需要探索
数据分析Workflow步骤固定:获取→清洗→分析→可视化
市场调研Agent需要搜索、判断、迭代
代码debugAgent需要试错和动态调整
多轮谈判Agent不可预测,需要策略
浏览器自动化Computer Use Agent网页结构复杂,规则难穷举

Anthropic的建议:从Workflow开始,只在Workflow无法覆盖时引入Agent。简单问题用复杂方案是过度工程。


4. 2026年Agent生态全景图

4.1 商业Agent四象限

通用任务 ▲ Manus │ ChatGPT Agent Mode (中国) │ (OpenAI) │ ────────────┼────────────→ 自主性高 │ Devin │ Claude Agents (代码专精) │ (Claude Code + Agent SDK) │ 代码任务

4.2 主流Agent产品

产品厂商定位杀手特性月费
Claude AgentsAnthropic通用Agent基础设施Claude Code + Agent SDK + Subagents,2026最可靠生产方案$20-200
ManusMonica(中国/新加坡)全球首款通用AI AgentGAIA基准86.5%,2025年3月发布即爆火,2025.12 ARR破1亿美元$39
DevinCognitionAI软件工程师专精GitHub Issue修复,自主写代码+开PR$500
OpenAI Operator / Agent ModeOpenAI浏览器Agent消费场景下单/订票/填表,集成ChatGPT Pro含$200/月
GLM-5.1智谱AI长程自主Agent单任务可执行8小时/1700步,纯华为昇腾910B训练按API

💡Manus:2025年3月6日由Monica团队发布,被誉为"全球首款通用AI Agent"。能自主筛简历、找房、做股票分析、规划旅行——给个任务就走人,云端异步跑完通知你。GAIA基准86.5%超越OpenAI Deep Research。2025年12月Meta以约20亿美元收购,2026年4月被中国发改委叫停(《外商投资安全审查办法》2021年实施以来首个被禁的AI收购案)。

💡Devin:Cognition公司2024年推出的AI软件工程师Agent。点GitHub Issue让它修,会自己写代码+跑测试+开PR。但2026年实测发现:定义清晰的小任务(bug修复、依赖升级)能做好;模糊任务会跑几小时然后产出无用PR。$500/月起。

💡GLM-5.1:智谱AI 2026年5月发布的长程自主Agent模型。SWE-Bench Pro 58.4%,Terminal-Bench 2.0 63.5%,AIME 2026 95.3%。最炸裂的是"长程自主"——单任务可连续运行8小时、1700步。"2024年Agent能做20步,GLM-5.1能做1700步"是其团队Lou的原话。

4.3 Agent OS:2026年的临界点

2026年4月业界出现一个新概念:Agent OS——AI不再是聊天框里的助手,而是"操作系统层的存在"。

传统AI: 浏览器/聊天框 ↓ Plugins ↓ Connectors 2026 Agent OS: 操作系统 ↓ Computer Use(操作屏幕) ↓ MCP(连接工具) ↓ Subagents(多智能体并行) ↓ Scheduled Tasks(定时执行)

💡Agent OS的关键认知:AI从"答题层"(answering layer)变成"操作层"(operating layer)。Anthropic Computer Use让Claude能控制电脑,OpenAI Codex桌面化让Codex成为多Agent指挥中心,MCP成为跨工具的通信协议——这三条线在2026年4月W16同周合流,“用电脑的AI”+“写代码的AI”+"标准化协议"在OS层统一了。


5. 2026年五大范式(从三大升级)

5.1 ReAct

边想边做——每步先思考,再行动,观察结果,继续思考。

Thought: 我需要搜索最新的AI新闻 Action: search("AI news 2026") Observation: [搜索结果...] Thought: 找到了3篇相关文章,我需要总结 Action: summarize([文章1, 文章2, 文章3]) ...

适用:通用任务、动态决策。

5.2 Plan-then-Execute

先想好再做——先制定完整计划,再逐步执行。

Plan: 1. 搜索AI新闻 2. 筛选最近3天的 3. 总结要点 4. 翻译成中文 5. 发送到企业微信 Execute step 1 → step 2 → step 3 → ...

适用:步骤可预定义、Web Agent场景(成功率比ReAct高80%)。

5.3 Multi-Agent

分工协作——多个Agent各司其职,通过协调机制配合。

Researcher Agent → 收集信息 Writer Agent → 撰写内容 Reviewer Agent → 审核质量

2026年主流实现:

  • Anthropic Subagents:Claude Code的核心机制,主Agent调度子Agent并行干活
  • OpenAI Swarm/Agents SDK:2025年发布,对话驱动的多Agent
  • CrewAI:角色化Multi-Agent框架

5.4 Computer Use Agent ⭐ 2025-2026新增

操作电脑而非调用API——Agent通过看屏幕、移鼠标、敲键盘来完成任务。

任务:打开Excel,填入财报数据,导出PDF 1. 截屏 → LLM看屏幕 2. LLM决策:"点击Excel图标" 3. 执行鼠标点击坐标(100, 200) 4. 截屏 → 验证Excel已打开 5. ... 循环至任务完成

代表产品:

  • Anthropic Computer Use(2024.10公测API)
  • OpenAI Operator(2025初)
  • Anthropic Claude桌面应用 Computer Use(2026.03,Pro/Max用户)
  • OpenClaw(2025-2026开源爆款,奥地利独立开发者)

适用:浏览器自动化、桌面应用操作、传统软件无API的场景。

5.5 Long-Horizon Autonomous Agent ⭐ 2026新增

长程自主执行——单任务可持续数小时甚至数天。

2024年: Agent能跑20步 2025年: Devin能跑数百步 2026年: GLM-5.1能跑1700步/8小时

关键技术:

  • 自动上下文压缩(Memory Compaction):长任务中Claude Code能压缩历史对话
  • 持久化记忆:MEMENTO、claude-mem把推理中间态存为可寻址记忆
  • 定时调度:Claude Code的/schedule、Routines

适用:CI修复、大型代码迁移、多日数据分析。


6. Agent发展简史(2025-2026更新版)

时间里程碑意义
2023.03AutoGPT / BabyAGI最早爆火的Agent项目,证明LLM可以"自主执行"
2023.06LangChain 0.1Agent开发框架化
2023.10ReAct论文广泛实践Thought-Action-Observation成为标准范式
2024.03Devin(Cognition)第一个"AI软件工程师"Agent
2024.10Anthropic Computer UseClaude首发"操作电脑"能力,Agent进入OS层
2024.11MCP协议发布Anthropic推出,统一工具调用协议
2025.02Claude Code发布Agent化的命令行编程工具,Boris Cherny用它完成100%日常编码
2025.03Manus发布全球首款通用AI Agent,GAIA 86.5%,邀请码炒到5-10万
2025.05Claude Code GA跟Claude 4一起正式商用
2025.09Claude Agent SDK开放Python/TypeScript两个版本,Agent基础设施开放
2025-26Devin/Manus商业化Manus年底ARR破1亿美元
2025.12MCP捐赠Linux基金会跨厂商标准协议,Apple/OpenAI跟进
2026.01Apple Xcode原生支持MCPMCP成跨平台标准
2026.03Claude Code集成Computer UseSWE-Bench 80.8%(2024年还是个位数)
2026.04Codex多Agent指挥中心OpenAI对标Claude,Agent OS之争白热化
2026.04GLM-5.1长程自主单任务1700步/8小时,纯华为昇腾训练
2026.05Pinecone Nexus发布向量数据库厂商转型Agent知识引擎

7. Agent的挑战

挑战说明2026进展
可靠性Agent可能走错路、死循环Claude 4.7知道何时停止 + 主动求澄清
成本多步调用消耗大量TokenMemory Compaction + 小模型路由(DeepSeek V4-Flash)
可观测性难以追踪Agent的决策过程Langfuse、Phoenix、Arize、LangSmith等成熟
安全性Agent调用工具可能造成损害沙箱 + 权限控制 + Constitutional AI 2.0
评测Agent行为多样性大,难以标准化Terminal-Bench 2.0、SWE-Bench Pro、GAIA成熟
审计取证2026新增:Agent操作和人类操作没法区分业界尚未解决——Computer Use模糊了"人vs AI"的取证边界

💡审计困境:当Agent就是用户本身(同一个鼠标、键盘、屏幕)的时候,传统取证手段没法区分人类和AI的操作。这是2026年Agent OS化带来的全新合规问题,企业级部署绕不开。


8. 本系列学习路线(2026版)

篇序主题核心问题
1(本篇)Agent学习总览Agent是什么?2026生态全景?
2ReAct如何"边想边做"?
3Plan-then-Execute如何"先规划再执行"?
4Multi-Agent架构多Agent如何协调?
5Anthropic Agent设计业界标杆怎么设计Agent?
6Agent开发框架用什么框架开发Agent?

9. 面试高频问题

Q1:Agent和Workflow的核心区别?

Workflow是人定义执行路径,AI只做"填空";Agent是AI自己决定执行路径。Workflow确定性高但灵活性低,Agent灵活性高但可控性低。

Q2:为什么不是所有场景都适合Agent?

Agent有三个固有风险:(1) 可能走错路且难以预判;(2) 成本不可控(多步调用);(3) 调试困难。流程明确的任务用Workflow更可靠。

Q3:Agent的记忆如何实现?

短期记忆用对话上下文(prompt window);长期记忆用向量数据库(存储历史交互的embedding,检索时取回相关片段)。2026年还有Memory Compaction(自动压缩历史)、专项Memory工具(MEMENTO、claude-mem、Zep)等新方案。

Q4:Computer Use和传统Tool Calling的本质区别?

Tool Calling是"调用程序员预先定义好的API",Computer Use是"像人一样操作任何软件"。前者受限于API开放程度,后者覆盖了所有桌面应用——包括没有API的传统软件。代价是不稳定(屏幕识别可能错位)和慢(每步都要截屏+理解)。

Q5:MCP协议解决了什么问题?

MCP(Model Context Protocol)是2024年11月Anthropic推出的开放标准,类似"AI界的USB-C"。原来每个AI应用要自己适配每个工具(GitHub/Slack/数据库),MCP统一了协议——任何MCP兼容的AI可以即插即用5000+ MCP Server。2025年12月捐赠Linux基金会后成为跨厂商标准。

Q6:2026年的Agent和2024年的有什么本质区别?

三个维度:(1)从API到OS层:Computer Use让Agent能操作真实电脑;(2)从单步到长程:从20步到1700步的自主能力;(3)从孤立到协议化:MCP+A2A让多Agent生态互通。本质上是"从工具到员工"的跃迁。


总结

概念关键点
Agent定义LLM + 感知 + 规划 + 工具 + 记忆 + 长程自主
vs Chatbot从"回答问题"到"解决问题"
vs WorkflowAI定义路径 vs 人定义路径
五大范式ReAct / Plan-then-Execute / Multi-Agent /Computer Use/Long-Horizon Autonomous
2026新维度Agent OS / MCP生态 / Memory工程 / Subagents
核心挑战可靠性、成本、可观测性、安全性、审计取证

Agent是LLM从"聊天工具"到"生产力工具"的关键跃迁。2026年的Agent已经不只是"调用API的智能体",而是能在操作系统层运转、连续工作数小时、跨多个应用协作的"数字员工"。理解Agent架构,是构建下一代AI应用的基础。


路易乔布斯 © 2026 | AI Agent & RAG学习计划 · 模块01-Agent · 第一篇

参考文献:

  • Anthropic, “Building Effective Agents”, 2024.12
  • Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models”, 2022
  • Anthropic, “Computer Use API”, 2024.10
  • Manus, “GAIA Benchmark Results”, 2025.03
  • Z.ai, “GLM-5.1: Long-Horizon Autonomous Agent”, 2026.04
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 5:12:14

2026年商家小程序点餐怎么申请?

餐饮商家申请小程序点餐,别只盯着“能不能扫码点餐”。真正上线后会发现,点餐只是第一步,后面还有桌台、菜品、支付、后厨出单、退款、会员券、到店核销这些细节。流程没理顺,小程序开通了也容易让店员更忙。小程序点餐是一种基于…

作者头像 李华
网站建设 2026/5/28 5:12:12

极简AI代理编排:20行配置构建12个代理的CI/CD流水线

1. 项目概述:从20行代码到12个AI代理的CI流水线最近在折腾一个内部工具,核心目标很简单:能不能用最少的代码,把一堆零散的AI能力(比如代码审查、文档生成、安全扫描)串成一个自动化的CI/CD流水线&#xff1…

作者头像 李华
网站建设 2026/5/28 5:11:44

NEST:基于DIMM的近数据处理架构如何攻克k-mer计数的内存墙难题

1. 项目概述:当基因组学遇上内存墙,NEST如何破局?如果你在生物信息学领域工作过,或者对高性能计算有所涉猎,大概率听说过“k-mer计数”这个名词。简单来说,它就是在一大堆由A、T、C、G四个字母组成的DNA测序…

作者头像 李华
网站建设 2026/5/28 5:10:37

GLM-5.1大模型:从文本到动画SVG代码的生成原理与应用

1. 项目概述:当大模型学会“画画”最近在AI圈子里,一个名为“GLM-5.1”的模型引起了不小的轰动。它不是一个普通的文本生成模型,而是一个拥有7540亿参数的庞然大物,最让人眼前一亮的是,它宣称能够直接生成动画SVG。这听…

作者头像 李华