2024年最热的AI话题是大模型,2026年最热的不是更大的模型,而是让模型"动手干活"——这就是Agent。从早期的AutoGPT到现在的Computer Use Agent、Manus、Claude Code,Agent已经从"实验"进入"操作系统层"。
一句话总结
AI Agent = LLM + 感知 + 规划 + 工具调用 + 记忆 + 长程自主。它不只是聊天,而是能自主完成多步骤任务。从Chatbot到Agent,是从"回答问题"到"解决问题"的质变;2026年的Agent又进一步——从"调用API"进化到"操作真实电脑",AI正在从"答题层"变成"操作层"。
1. 什么是AI Agent?
1.1 定义
Agent是一个能感知环境、做出决策、采取行动以实现目标的自主系统。
在LLM语境下:
LLM(大脑)+ 工具(手和脚)+ 记忆(经验)+ 规划(策略)+ 长程自主(耐力)= Agent💡2026年的关键变化:原来Agent的"工具"只是API调用,现在加上了"操作真实电脑"(Computer Use)——Agent可以直接看屏幕、移动鼠标、点击按钮、敲键盘。这把Agent的能力边界从"程序员定义的API集合"扩展到了"任何人类能在电脑上做的事"。
1.2 与Chatbot的区别
| 维度 | Chatbot | Agent |
|---|---|---|
| 交互模式 | 一问一答 | 多步自主执行 |
| 工具使用 | 无 | 可调用API/搜索/代码执行/操作电脑 |
| 记忆 | 无/短期 | 短期+长期记忆+持续学习 |
| 目标 | 回答好一个问题 | 完成一个任务 |
| 自主时长 | 单轮(秒级) | 数分钟到数小时(GLM-5.1可达8小时) |
| 示例 | “解释量子力学” | “帮我调研竞品并写综述报告” |
1.3 生活中的类比
| 概念 | 类比 |
|---|---|
| LLM | 一个只会说话的顾问 |
| Chatbot | 顾问+电话(只能对话) |
| Agent | 顾问+电脑+手机+秘书(能执行任务) |
| Computer Use Agent | 会用你电脑的实习生(可以打开任何应用、操作任何界面) |
2. Agent的核心组件(2026六大件)
2.1 六大组件
┌─────────────────────────────────────────────────┐ │ Agent │ │ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ │ │ 规划 │ │ 记忆 │ │ 工具 │ │感知层│ │自主层│ │ │ │Plan │ │Memory│ │Tools │ │Sense │ │Auto │ │ │ └──┬───┘ └──┬───┘ └──┬───┘ └──┬───┘ └──┬───┘ │ │ └────────┼────────┼────────┼────────┘ │ │ │ │ │ │ │ └────────┼────────┘ │ │ ┌────┴────┐ │ │ │ LLM │ │ │ │ (大脑) │ │ │ └─────────┘ │ └─────────────────────────────────────────────────┘规划(Planning):把大目标拆成小步骤,决定执行顺序
记忆(Memory):⭐ 2026年Agent发展最快的领域
- 短期记忆:当前对话上下文
- 长期记忆:历史交互、知识库、用户画像
- Memory工程:MEMENTO(微软)、claude-mem、cognee、Zep等专项工具爆发
工具(Tools):
- 搜索引擎、代码执行器、API调用
- 文件读写、数据库查询
- MCP协议:2024年11月Anthropic推出,2025年12月捐赠Linux基金会,2026年成事实标准,全球5000+ MCP Server可用
感知层(Sense):⭐ 2025-2026 新增能力
- 屏幕理解(Computer Use)
- 多模态输入(图像、视频、音频)
自主层(Autonomy):⭐ 2026新维度
- 长程任务执行(GLM-5.1单任务可跑8小时/1700步)
- 定时调度(Claude Code的
/schedule) - 事件驱动(Routines研究预览)
LLM(大脑):理解指令、推理决策、生成响应
2.2 Agent Loop
Agent的核心运行循环:
1. 接收任务/观察环境 2. LLM思考:当前状态是什么?下一步该做什么? 3. 选择并执行动作(调用工具/操作电脑/生成文本) 4. 观察执行结果 5. 更新记忆(短期+长期) 6. 回到步骤2,直到任务完成这是经典的OODA循环(Observe-Orient-Decide-Act),2026年加上了"Memorize",变成OODA-M循环。
💡OODA循环:观察-定向-决策-行动循环,由美军飞行员John Boyd提出,原本用于战斗机空战决策。AI Agent借用这个框架描述"持续感知环境并行动"的运行机制。
3. Agent vs Workflow:关键区分
这是理解Agent最重要的一组概念。
3.1 Workflow(工作流)
人定义路径,AI执行步骤。
用户 → 步骤1(搜索) → 步骤2(总结) → 步骤3(翻译) → 输出- 路径是固定的
- AI只在每个步骤内做"填空"
- 确定性高,可控性强
- 适合流程明确的任务
3.2 Agent(自主代理)
AI定义路径,自主决策。
用户 → Agent思考 → 调用工具A → 观察结果 → Agent思考 → 调用工具B → ... → 输出- 路径是动态的,由Agent实时决定
- Agent根据中间结果调整策略
- 灵活性高,可控性低
- 适合开放性、探索性任务
3.3 何时用Workflow,何时用Agent?
| 场景 | 推荐方案 | 原因 |
|---|---|---|
| 客服FAQ | Workflow | 流程确定,不需要探索 |
| 数据分析 | Workflow | 步骤固定:获取→清洗→分析→可视化 |
| 市场调研 | Agent | 需要搜索、判断、迭代 |
| 代码debug | Agent | 需要试错和动态调整 |
| 多轮谈判 | Agent | 不可预测,需要策略 |
| 浏览器自动化 | Computer Use Agent | 网页结构复杂,规则难穷举 |
Anthropic的建议:从Workflow开始,只在Workflow无法覆盖时引入Agent。简单问题用复杂方案是过度工程。
4. 2026年Agent生态全景图
4.1 商业Agent四象限
通用任务 ▲ Manus │ ChatGPT Agent Mode (中国) │ (OpenAI) │ ────────────┼────────────→ 自主性高 │ Devin │ Claude Agents (代码专精) │ (Claude Code + Agent SDK) │ 代码任务4.2 主流Agent产品
| 产品 | 厂商 | 定位 | 杀手特性 | 月费 |
|---|---|---|---|---|
| Claude Agents | Anthropic | 通用Agent基础设施 | Claude Code + Agent SDK + Subagents,2026最可靠生产方案 | $20-200 |
| Manus | Monica(中国/新加坡) | 全球首款通用AI Agent | GAIA基准86.5%,2025年3月发布即爆火,2025.12 ARR破1亿美元 | $39 |
| Devin | Cognition | AI软件工程师 | 专精GitHub Issue修复,自主写代码+开PR | $500 |
| OpenAI Operator / Agent Mode | OpenAI | 浏览器Agent | 消费场景下单/订票/填表,集成ChatGPT Pro | 含$200/月 |
| GLM-5.1 | 智谱AI | 长程自主Agent | 单任务可执行8小时/1700步,纯华为昇腾910B训练 | 按API |
💡Manus:2025年3月6日由Monica团队发布,被誉为"全球首款通用AI Agent"。能自主筛简历、找房、做股票分析、规划旅行——给个任务就走人,云端异步跑完通知你。GAIA基准86.5%超越OpenAI Deep Research。2025年12月Meta以约20亿美元收购,2026年4月被中国发改委叫停(《外商投资安全审查办法》2021年实施以来首个被禁的AI收购案)。
💡Devin:Cognition公司2024年推出的AI软件工程师Agent。点GitHub Issue让它修,会自己写代码+跑测试+开PR。但2026年实测发现:定义清晰的小任务(bug修复、依赖升级)能做好;模糊任务会跑几小时然后产出无用PR。$500/月起。
💡GLM-5.1:智谱AI 2026年5月发布的长程自主Agent模型。SWE-Bench Pro 58.4%,Terminal-Bench 2.0 63.5%,AIME 2026 95.3%。最炸裂的是"长程自主"——单任务可连续运行8小时、1700步。"2024年Agent能做20步,GLM-5.1能做1700步"是其团队Lou的原话。
4.3 Agent OS:2026年的临界点
2026年4月业界出现一个新概念:Agent OS——AI不再是聊天框里的助手,而是"操作系统层的存在"。
传统AI: 浏览器/聊天框 ↓ Plugins ↓ Connectors 2026 Agent OS: 操作系统 ↓ Computer Use(操作屏幕) ↓ MCP(连接工具) ↓ Subagents(多智能体并行) ↓ Scheduled Tasks(定时执行)💡Agent OS的关键认知:AI从"答题层"(answering layer)变成"操作层"(operating layer)。Anthropic Computer Use让Claude能控制电脑,OpenAI Codex桌面化让Codex成为多Agent指挥中心,MCP成为跨工具的通信协议——这三条线在2026年4月W16同周合流,“用电脑的AI”+“写代码的AI”+"标准化协议"在OS层统一了。
5. 2026年五大范式(从三大升级)
5.1 ReAct
边想边做——每步先思考,再行动,观察结果,继续思考。
Thought: 我需要搜索最新的AI新闻 Action: search("AI news 2026") Observation: [搜索结果...] Thought: 找到了3篇相关文章,我需要总结 Action: summarize([文章1, 文章2, 文章3]) ...适用:通用任务、动态决策。
5.2 Plan-then-Execute
先想好再做——先制定完整计划,再逐步执行。
Plan: 1. 搜索AI新闻 2. 筛选最近3天的 3. 总结要点 4. 翻译成中文 5. 发送到企业微信 Execute step 1 → step 2 → step 3 → ...适用:步骤可预定义、Web Agent场景(成功率比ReAct高80%)。
5.3 Multi-Agent
分工协作——多个Agent各司其职,通过协调机制配合。
Researcher Agent → 收集信息 Writer Agent → 撰写内容 Reviewer Agent → 审核质量2026年主流实现:
- Anthropic Subagents:Claude Code的核心机制,主Agent调度子Agent并行干活
- OpenAI Swarm/Agents SDK:2025年发布,对话驱动的多Agent
- CrewAI:角色化Multi-Agent框架
5.4 Computer Use Agent ⭐ 2025-2026新增
操作电脑而非调用API——Agent通过看屏幕、移鼠标、敲键盘来完成任务。
任务:打开Excel,填入财报数据,导出PDF 1. 截屏 → LLM看屏幕 2. LLM决策:"点击Excel图标" 3. 执行鼠标点击坐标(100, 200) 4. 截屏 → 验证Excel已打开 5. ... 循环至任务完成代表产品:
- Anthropic Computer Use(2024.10公测API)
- OpenAI Operator(2025初)
- Anthropic Claude桌面应用 Computer Use(2026.03,Pro/Max用户)
- OpenClaw(2025-2026开源爆款,奥地利独立开发者)
适用:浏览器自动化、桌面应用操作、传统软件无API的场景。
5.5 Long-Horizon Autonomous Agent ⭐ 2026新增
长程自主执行——单任务可持续数小时甚至数天。
2024年: Agent能跑20步 2025年: Devin能跑数百步 2026年: GLM-5.1能跑1700步/8小时关键技术:
- 自动上下文压缩(Memory Compaction):长任务中Claude Code能压缩历史对话
- 持久化记忆:MEMENTO、claude-mem把推理中间态存为可寻址记忆
- 定时调度:Claude Code的
/schedule、Routines
适用:CI修复、大型代码迁移、多日数据分析。
6. Agent发展简史(2025-2026更新版)
| 时间 | 里程碑 | 意义 |
|---|---|---|
| 2023.03 | AutoGPT / BabyAGI | 最早爆火的Agent项目,证明LLM可以"自主执行" |
| 2023.06 | LangChain 0.1 | Agent开发框架化 |
| 2023.10 | ReAct论文广泛实践 | Thought-Action-Observation成为标准范式 |
| 2024.03 | Devin(Cognition) | 第一个"AI软件工程师"Agent |
| 2024.10 | Anthropic Computer Use | Claude首发"操作电脑"能力,Agent进入OS层 |
| 2024.11 | MCP协议发布 | Anthropic推出,统一工具调用协议 |
| 2025.02 | Claude Code发布 | Agent化的命令行编程工具,Boris Cherny用它完成100%日常编码 |
| 2025.03 | Manus发布 | 全球首款通用AI Agent,GAIA 86.5%,邀请码炒到5-10万 |
| 2025.05 | Claude Code GA | 跟Claude 4一起正式商用 |
| 2025.09 | Claude Agent SDK开放 | Python/TypeScript两个版本,Agent基础设施开放 |
| 2025-26 | Devin/Manus商业化 | Manus年底ARR破1亿美元 |
| 2025.12 | MCP捐赠Linux基金会 | 跨厂商标准协议,Apple/OpenAI跟进 |
| 2026.01 | Apple Xcode原生支持MCP | MCP成跨平台标准 |
| 2026.03 | Claude Code集成Computer Use | SWE-Bench 80.8%(2024年还是个位数) |
| 2026.04 | Codex多Agent指挥中心 | OpenAI对标Claude,Agent OS之争白热化 |
| 2026.04 | GLM-5.1长程自主 | 单任务1700步/8小时,纯华为昇腾训练 |
| 2026.05 | Pinecone Nexus发布 | 向量数据库厂商转型Agent知识引擎 |
7. Agent的挑战
| 挑战 | 说明 | 2026进展 |
|---|---|---|
| 可靠性 | Agent可能走错路、死循环 | Claude 4.7知道何时停止 + 主动求澄清 |
| 成本 | 多步调用消耗大量Token | Memory Compaction + 小模型路由(DeepSeek V4-Flash) |
| 可观测性 | 难以追踪Agent的决策过程 | Langfuse、Phoenix、Arize、LangSmith等成熟 |
| 安全性 | Agent调用工具可能造成损害 | 沙箱 + 权限控制 + Constitutional AI 2.0 |
| 评测 | Agent行为多样性大,难以标准化 | Terminal-Bench 2.0、SWE-Bench Pro、GAIA成熟 |
| 审计取证 | 2026新增:Agent操作和人类操作没法区分 | 业界尚未解决——Computer Use模糊了"人vs AI"的取证边界 |
💡审计困境:当Agent就是用户本身(同一个鼠标、键盘、屏幕)的时候,传统取证手段没法区分人类和AI的操作。这是2026年Agent OS化带来的全新合规问题,企业级部署绕不开。
8. 本系列学习路线(2026版)
| 篇序 | 主题 | 核心问题 |
|---|---|---|
| 1(本篇) | Agent学习总览 | Agent是什么?2026生态全景? |
| 2 | ReAct | 如何"边想边做"? |
| 3 | Plan-then-Execute | 如何"先规划再执行"? |
| 4 | Multi-Agent架构 | 多Agent如何协调? |
| 5 | Anthropic Agent设计 | 业界标杆怎么设计Agent? |
| 6 | Agent开发框架 | 用什么框架开发Agent? |
9. 面试高频问题
Q1:Agent和Workflow的核心区别?
Workflow是人定义执行路径,AI只做"填空";Agent是AI自己决定执行路径。Workflow确定性高但灵活性低,Agent灵活性高但可控性低。
Q2:为什么不是所有场景都适合Agent?
Agent有三个固有风险:(1) 可能走错路且难以预判;(2) 成本不可控(多步调用);(3) 调试困难。流程明确的任务用Workflow更可靠。
Q3:Agent的记忆如何实现?
短期记忆用对话上下文(prompt window);长期记忆用向量数据库(存储历史交互的embedding,检索时取回相关片段)。2026年还有Memory Compaction(自动压缩历史)、专项Memory工具(MEMENTO、claude-mem、Zep)等新方案。
Q4:Computer Use和传统Tool Calling的本质区别?
Tool Calling是"调用程序员预先定义好的API",Computer Use是"像人一样操作任何软件"。前者受限于API开放程度,后者覆盖了所有桌面应用——包括没有API的传统软件。代价是不稳定(屏幕识别可能错位)和慢(每步都要截屏+理解)。
Q5:MCP协议解决了什么问题?
MCP(Model Context Protocol)是2024年11月Anthropic推出的开放标准,类似"AI界的USB-C"。原来每个AI应用要自己适配每个工具(GitHub/Slack/数据库),MCP统一了协议——任何MCP兼容的AI可以即插即用5000+ MCP Server。2025年12月捐赠Linux基金会后成为跨厂商标准。
Q6:2026年的Agent和2024年的有什么本质区别?
三个维度:(1)从API到OS层:Computer Use让Agent能操作真实电脑;(2)从单步到长程:从20步到1700步的自主能力;(3)从孤立到协议化:MCP+A2A让多Agent生态互通。本质上是"从工具到员工"的跃迁。
总结
| 概念 | 关键点 |
|---|---|
| Agent定义 | LLM + 感知 + 规划 + 工具 + 记忆 + 长程自主 |
| vs Chatbot | 从"回答问题"到"解决问题" |
| vs Workflow | AI定义路径 vs 人定义路径 |
| 五大范式 | ReAct / Plan-then-Execute / Multi-Agent /Computer Use/Long-Horizon Autonomous |
| 2026新维度 | Agent OS / MCP生态 / Memory工程 / Subagents |
| 核心挑战 | 可靠性、成本、可观测性、安全性、审计取证 |
Agent是LLM从"聊天工具"到"生产力工具"的关键跃迁。2026年的Agent已经不只是"调用API的智能体",而是能在操作系统层运转、连续工作数小时、跨多个应用协作的"数字员工"。理解Agent架构,是构建下一代AI应用的基础。
路易乔布斯 © 2026 | AI Agent & RAG学习计划 · 模块01-Agent · 第一篇
参考文献:
- Anthropic, “Building Effective Agents”, 2024.12
- Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models”, 2022
- Anthropic, “Computer Use API”, 2024.10
- Manus, “GAIA Benchmark Results”, 2025.03
- Z.ai, “GLM-5.1: Long-Horizon Autonomous Agent”, 2026.04