news 2026/4/28 20:43:58

Harness Engineering:决定 AI Agent 生死的 80% 因素

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Harness Engineering:决定 AI Agent 生死的 80% 因素

一、一个被忽视的事实

OpenAI 的 Codex 团队用 3 名工程师,让 AI Agent 自动生成了超过 100 万行代码。没有一行是人类手写的。

模型很强,但模型不是突破。突破的是 Harness Engineering。

Codex 运行在沙箱环境中,有结构化的工具访问权限,有验证循环在每一步检查代码变更是否通过测试套件,有上下文工程管道在每一步精确投喂 Agent 需要的信息。

换一个竞争对手的底层模型,输出质量波动 10%-15%。改变 Harness 设计,决定的是系统能不能工作。

Harness 是 80% 因素。

二、什么是 Harness Engineering

Harness,马具。套在马身上的缰绳和挽具,把强大但不可控的动物能量引导到有用的工作上,而不是让它乱跑。

Anthropic 在其官方文档 “Building Effective Agents” 中推广了这个类比。但 Harness Engineering 的概念远不止编程 Agent。

Harness Engineering 是设计、构建和运营约束、通知、验证和纠正生产环境中 AI Agent 的基础设施的工程学科。

如果 Agent 是大脑,Harness 就是其余的一切。不是模型本身的部分,而是用户请求和 Agent 最终输出之间所有东西的总和:上下文组装、工具编排、验证循环、成本控制、可观测性 instrumentation。

任何在生产环境中运行的 Agent 都需要 Harness。客服 Agent 需要上下文工程拉取相关账户数据和对话历史。研究 Agent 需要工具编排协调搜索 API、文档解析器和综合步骤。数据处理 Agent 需要成本包络管理防止重试循环一夜之间烧掉数千美元的 API 调用费用。

三、为什么没有 Harness,Agent 必然失败

APEX-Agents 基准测试给出了冷酷的数字。

研究人员用前沿模型做专业级软件工程任务——公司真正想让 Agent 干的那种活。最佳模型的首次通过率:24%。

不是 74%。不是 54%。24%。

模型能力没问题。围绕模型的基础设施没跟上。

生产中的失败模式比想象中更隐蔽。

一个常见的循环:团队部署了一个测试中表现良好的 Agent,推到生产环境,发现 15%-20% 的任务失败。第一反应是优化提示词或升级模型。花三周迭代提示词,失败率下降几个百分点,宣布胜利。而根因是一个静默吞掉错误的工具集成。

工具调用在生产中 3%-15% 的

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/28 20:33:31

【TB6612是否可以驱动三线无刷电机】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言前言 针对嵌入式开发驱动三线无刷电机的需求,探究TB6612是否可以驱动三线无刷电机,个人实验创作,项目仅供参考。 提示:以下是本篇文章正文内容&…

作者头像 李华
网站建设 2026/4/28 20:31:26

告别百倍币幻想:2026区块链用户的“实用主义生存手册“

引言:一场静默的革命正在发生 2026年3月,全球区块链用户突破5.8亿,但一个反直觉的现象正在浮现: 比特币持仓超过1年的地址数同比增长240% DeFi协议中73%的锁仓量来自机构级用户 NFT市场交易额的61%流向了版权确权、供应链金融等…

作者头像 李华
网站建设 2026/4/28 20:31:19

FPGA FFT实战:用缩放因子(SCALE_SCH)优化频谱分析并节省资源

FPGA FFT实战:用缩放因子(SCALE_SCH)优化频谱分析并节省资源 在数字信号处理领域,快速傅里叶变换(FFT)是实现频谱分析的核心算法。对于FPGA开发者而言,如何在有限的逻辑资源下高效实现FFT运算&a…

作者头像 李华
网站建设 2026/4/28 20:30:29

鸣潮自动化工具终极指南:3分钟配置,解放你的游戏时间

鸣潮自动化工具终极指南:3分钟配置,解放你的游戏时间 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸 一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 你是否…

作者头像 李华
网站建设 2026/4/28 20:29:56

告别硬盘空间焦虑:实测分区助手在Win11上无损调整C/D盘大小的完整流程

告别硬盘空间焦虑:实测分区助手在Win11上无损调整C/D盘大小的完整流程 每次打开资源管理器看到C盘亮起刺眼的红色警告,那种被数字围困的窒息感总会瞬间袭来。我们试过疯狂清理回收站、卸载陈年软件,甚至冒险删除系统临时文件,但Wi…

作者头像 李华