5月22日
如何把Codex用到极致
大多数开发者刚接触AI编辑器的时候,通常只让他们干一件事写代码。比如让他们检查一下代码库,生成一个差异对比diff,跑跑测试,然后合并一个请求.
写代码确实是Codex强项但仔细想想,我们在电脑上大部分工作本质上其实都是和代码息息相关:执行终端命令,浏览网页调用程序接口导出文档或者触发自动化流程。当Codex它触及这种领域的时候,他不再是一个狭义上的编程助手,而是进化成了一个能帮你搞定电脑上各种工作的全能打功能人。
想要让Codex的潜能完全被激发出来,我们适合以下的连招
- 能够长期保存记忆的持久对话流
- 在你掌控全局时,灵活使用语音输入任务干预和任务排队
- 借助浏览器、电脑操控模型上下文协议服务器以及各种连接器让Codex的手伸向代码库之外
- 当你离开电脑时,利用对话流自动化和目标驱动,让它继续搬砖
- 熟练使用侧边栏,随时审查它生成的代码、文档、幻灯片和其他文件
持久对话流
持久对话流:可以长时间运行coded对话流,能多次在你使用的时候始终保持你的工作上下文。
随着时间迁移,他会记得你之前做过的决定,你的个人偏好以及当前进度。如果没有这个功能,你每次都得从零开始把这些背景信息喂给他。
语音输入
语音输入之所以好用,是因为他能把你的想法在敲定为文字之前,先把你脑子里面最原始、最粗糙的念头捕捉出来
任务干预与排队
当你把语音输入和对话中的任务直接控制起来的时候,它的威力才显示出来
当你一个任务正在执行时,如果你想当你发现AI跑边的时候,需要在他撞南墙之前纠正它这个功能就派上了。比如正在审查网页时,你可以一边在测篮上点点点,一边直接开口打断它。
而任务排队就不一样,他不会打断正在执行的内容,而是把新任务排队在后任务中,你可以这样跟他说,等这活干完,把预览链接发给这个人审核看看。简单来说,干预就是改变,当下做的事情,而排队是安排他接下来要做的事情
随时随地工作
随时随地与Codex协同工作的概念,彻底打破了必须坐在电脑前才能干活的传统限制。
自动化
自动化功能能让 Codex按你的设定时间,自动化干活
Harness工程化
1. 上下文管理
上下文管理解决的是“AI 应该知道什么”的问题。模型本身没有长期记忆,每次调用看到的只是当前上下文窗口里的内容。因此,项目规则、目录结构、技术约束、禁止事项等信息,不能只停留在口头约定里,而要沉淀成 AGENTS.md、CLAUDE.md 或 docs 下的规则文件。
好的上下文管理通常是分层的:根目录文件提供项目地图,专题文档承载详细规范,轻量索引帮助 AI 按需查找。这样既能让 AI 看见关键规则,又不会把上下文窗口塞满。
2. 执行能力
执行能力解决的是“AI 能不能动手”的问题。模型本身只能输出文本,但 Harness 可以把它连接到终端、文件系统、浏览器、API、MCP 服务和 Skills,让 AI 能读代码、改文件、跑测试、看日志、操作页面,并根据真实反馈调整下一步。
工具不是越多越好。工具越多,模型每一步的选择空间越大,走错路径的概率也越高。真正有效的 Harness,往往是提供少量稳定、通用、可组合的工具,让模型自己完成探索和执行。
3. 任务编排
任务编排解决的是“AI 怎么完成长任务”的问题。复杂需求不能依赖一次性 one-shot 完成,而要拆成计划、子任务、验证和交接。常见做法包括 Plan Mode、步进执行、子任务拆分、并行 agent,以及用 progress.md 记录当前进度。
对长任务来说,progress.md 和 git commit 就是 AI 的存档点。即使对话中断、上下文耗尽或模型切换,下一轮也能通过读取历史提交和进度文档快速恢复现场。
4. 反馈机制
反馈机制解决的是“AI 怎么知道自己做对了”的问题。代码看起来合理,不代表真的能运行。Harness 需要把验证过程自动化,让 AI 在完成任务前主动跑 linter、typecheck、单测、集成测试,必要时还要用浏览器截图验证 UI。
更进一步,可以引入独立的 LLM 评审 Agent,让生成代码的 Agent 和评审 Agent 分离。生成者负责实现,评审者负责挑错,这样更容易发现逻辑漏洞、架构问题和潜在 bug。
5. 架构护栏
架构护栏解决的是“AI 会不会把项目越改越乱”的问题。AI 会模仿仓库里已有的模式,好模式会被放大,坏模式也会被放大。因此,关键架构规则不能只写在文档里,还要变成可执行的检查。
常见护栏包括 pre-commit hooks、架构 linter 和 CI gate。它们可以在提交前或合并前自动拦截违规代码,例如跨层依赖、文件过大、模块边界被破坏、UI 层直接访问数据库等问题。
总结
这五个维度共同决定了一个 Harness 是否真正可用:上下文管理让 AI 看见规则,执行能力让 AI 拥有手脚,任务编排让 AI 能接住长任务,反馈机制让结果可验证,架构护栏让速度不会失控。也就是说,Harness 的核心不是让模型更会说,而是让模型的推理能力能够稳定、安全地进入工程流程。