一、一个被忽视的事实
OpenAI 的 Codex 团队用 3 名工程师,让 AI Agent 自动生成了超过 100 万行代码。没有一行是人类手写的。
模型很强,但模型不是突破。突破的是 Harness Engineering。
Codex 运行在沙箱环境中,有结构化的工具访问权限,有验证循环在每一步检查代码变更是否通过测试套件,有上下文工程管道在每一步精确投喂 Agent 需要的信息。
换一个竞争对手的底层模型,输出质量波动 10%-15%。改变 Harness 设计,决定的是系统能不能工作。
Harness 是 80% 因素。
二、什么是 Harness Engineering
Harness,马具。套在马身上的缰绳和挽具,把强大但不可控的动物能量引导到有用的工作上,而不是让它乱跑。
Anthropic 在其官方文档 “Building Effective Agents” 中推广了这个类比。但 Harness Engineering 的概念远不止编程 Agent。
Harness Engineering 是设计、构建和运营约束、通知、验证和纠正生产环境中 AI Agent 的基础设施的工程学科。
如果 Agent 是大脑,Harness 就是其余的一切。不是模型本身的部分,而是用户请求和 Agent 最终输出之间所有东西的总和:上下文组装、工具编排、验证循环、成本控制、可观测性 instrumentation。
任何在生产环境中运行的 Agent 都需要 Harness。客服 Agent 需要上下文工程拉取相关账户数据和对话历史。研究 Agent 需要工具编排协调搜索 API、文档解析器和综合步骤。数据处理 Agent 需要成本包络管理防止重试循环一夜之间烧掉数千美元的 API 调用费用。
三、为什么没有 Harness,Agent 必然失败
APEX-Agents 基准测试给出了冷酷的数字。
研究人员用前沿模型做专业级软件工程任务——公司真正想让 Agent 干的那种活。最佳模型的首次通过率:24%。
不是 74%。不是 54%。24%。
模型能力没问题。围绕模型的基础设施没跟上。
生产中的失败模式比想象中更隐蔽。
一个常见的循环:团队部署了一个测试中表现良好的 Agent,推到生产环境,发现 15%-20% 的任务失败。第一反应是优化提示词或升级模型。花三周迭代提示词,失败率下降几个百分点,宣布胜利。而根因是一个静默吞掉错误的工具集成。
工具调用在生产中 3%-15% 的