Tomasz Tunguz 给 Agent 创业公司的七要素检查清单：SaaS 时代落幕-开发者社区

最近大名鼎鼎的风投大佬 Tomer (Tomasz) Tunguz 发了一篇直击灵魂的行业洞察：《Software After AI》。

他在文章里抛出了一个非常犀利的观点：传统 SaaS 时代的软件，其本质是“带有固定工作流的托管数据库”，而这一模式正在被 AI 的智能底座全面解构。AI 就像一匹野性难驯的野马，强大但充满非确定性。而接下来 Agent 产品的竞争，根本不在于看谁调的模型更聪明，而在于看谁能打造出一套完美的“马具（Harness）”去驯化它。

与其每天开会空谈宏大的 Agent 生态，不如来看看 Tomer 帮创业公司梳理的这套Agent 产品工程落地 7 大Checklist。建议每一位正在带队卷 Agent 产品的架构师和产品经理都看一遍。

驯服野马：Agent 产品的七个核心组件

1. 上下文与记忆（Context & Memory）

核心干货：通用大模型必须依靠“ bespoke（定制化）检索”才能产生真正的产业价值。

产品自检项：
- 短期记忆：你的 Agent 能够清晰记得 45 秒之前它刚执行完哪一个步骤、在上下文中观察到了什么变化吗？
- 深度检索工程：放射科医生的图谱调取、律师的法条检索、或是跨越数十亿文档的关键词匹配，你是否为各自的垂类场景定制了专属的精准检索策略？
- Recipe Book（配方上下文）：企业每个人脑子里的 SOP（标准作业程序）就是它的业务配方。你的系统是否具备一套“上下文数据库”，能随着人、流程和业务的变更，动态捕获并自主演进这些配方？

2. 工具与行动（Tools & Action）

核心干货：配方描述了要做什么，工具才是执行它的厨具。智能体必须高效、安全地影响外在环境。

产品自检项：
- 工具注册表（Tool Registry）：是否建立了清晰的工具中心，用于规范暴露内网与外部 API？
- 参数校验与路由：模型在 Agent 循环中传过来的 arguments（参数）是否经过了严格的格式和合法性验证？
- 敏感操作门控：删库、高额转账、涉及核心资产的敏感 Action，有没有设置坚固的人工审批（Approvals Gating）防火墙？
- 失败降级处理：目前MCP（Model Context Protocol）已成为不可逆的行业连接纽带。当某条工具链调用偶发性失败时，你的系统是否具备优雅的异常解析与容错处理？

3. 编排与循环（Orchestration & Loop）

核心干货：Agent 的本能是“思考-行动-观察-重复（Think, Act, Observe, Repeat）”，但这远远不够。

产品自检项：
- 长链条规划能力：面对复杂任务，系统能否做到高维度的任务分解（Decomposition）、重试（Retries）以及精确的终止条件（Stop Conditions）？
- 多智能体协同：是否具备成熟的子智能体（Sub-agents）分工与并发调用调度机制？
- 闭环进化（Closed Loop）：优秀的 Agent 产品应该能通过用户的每一次修正和每一次执行结果进行自我迭代（Closed-loop learning）。你的产品是在原地踏步，还是在“越用越聪明”？

4. 状态与持久化（State & Persistence）

核心干货：企业级落地最怕系统“间歇性崩溃”。长任务必须具备弹性容灾与状态恢复能力。

产品自检项：
- 断点续传能力：当一个复杂的 Agent 在执行 10 步长程任务的第 7 步时，因为外部 API 超时或网关偶发崩溃挂掉，重新拉起时，它能直接从第 8 步恢复断点（Resume），还是不得不从零重启（Restart）？
- 伪影与存储管理：系统是否引入了完善的文件系统、中间检查点（Checkpoints）、会话线程（Session Threads）和资产中间体存储（Artifact Storage）？

5. 沙箱与计算（Sandbox & Compute）

核心干货：给 Agent 创造一个安全的“游乐场”，防止发生系统逃逸或安全越权。

产品自检项：
- 环境隔离：每一个独立的 Agent 在执行本地脚本或命令时，是否都在一个被彻底隔离的 Unix 工作空间（Isolated Unix Workspaces）中运行？
- 网络出站拦截（Controlled Network Egress）：是否对沙箱的网络出站请求进行了严格限流与审计策略？
- 凭证安全隔离：核心的系统凭证与用户私钥，是否完全存放在大模型触及不到的外部托管层（Outside the model），防止被反向窃取？

6. 可观测性与治理（Observability & Governance）

核心干货：你无法信任你看不见、摸不着的东西。

产品自检项：
- 全链路追溯（Tracing）：每一次黑盒思考、每一轮工具调用，后台是否具备全量的日志监控与链路追踪？
- 回归评估集（Evals）：在每次更新 Agent 的提示词或底层内核时，是否有固定的 Evaluation 数据集作为回归测试，防止模型性能出现局部倒退（Regressions）？
- 安全守卫（Guardrails）：是否建立了动态策略守卫与人工介入机制（Human-in-the-loop），在高风险和关键决策节点上把好最后一关？

7. 成本与工作流优化（Cost & Workflow Optimization）

核心干货：顶级的 AI 架构师拼的不是调包，而是极其理性的“架构裁判力”。

产品自检项：
- 确定性 vs 非确定性抉择：你有没有把本可以用传统代码硬编码写死的确定性逻辑，画蛇添足地扔给昂贵且不稳定的 AI 模型？
- 模型分级路由：复杂的推理步骤、中等难度的文本改写、极速的参数过滤，你是否对应分流到了不同规格（SOTA、Medium、Small）或专门微调（Fine-tuned）的模型上？
- 知识位置优化：哪些垂直领域的行业知识应该固化为 Agent 随取随用的“长期技能（Skills）”，哪些应该在运行时动态加载进入“临时记忆（Memory）”？