上周我在一个微服务项目上重构支付模块——12个文件,跨三个目录,涉及 Stripe 旧 API 迁移。
先试了 Codex CLI,十来秒就跑完了。一看代码,逻辑是对的,但有个边界条件没处理。再试 Claude Code,它先读了十多秒(1M token 上下文,整个项目塞了进去),然后开始改。慢是真慢,但改完我几乎不用调。
我还特地用 Gemini CLI 跑了同一个任务——免费的,1M 上下文,开 Deep Think 模式。结果嘛……只能说符合它的价格。
这不是一篇评测软文。我花了三天时间,用同一组任务测试了这三个 CLI 工具——不是为了跑分,是真实干活。下面是我的结论。
先表态:三个工具,三个哲学
AI CLI 赛道在 2026 年已经杀成红海了。但真正站住的,也就这三家。
| 工具 | 开发商 | 核心模型 | 开源? | 起售价 |
|---|---|---|---|---|
| Claude Code | Anthropic | Opus 4.6 | ❌ 闭源 | $20/月(Pro) |
| Codex CLI | OpenAI | GPT-5.3-Codex | ✅ Apache 2.0 | $20/月(ChatGPT Plus) |
| Gemini CLI | Gemini 3 Pro | ✅ 开源 | 免费(1000次/天) |
数据来自官方文档和 SWE-bench 公开榜单。
它们的差异不只是模型不同,而是架构哲学完全不同:
- Claude Code:本地运行,深度推理。改代码前先把整个项目"读一遍",脑子里建好依赖图再动手。慢,但准。
- Codex CLI:默认跑在云端沙箱里。隔离执行,安全第一。速度快,token 用量省,适合"你明确知道要改什么"的场景。
- Gemini CLI:免费、开源、超大上下文。1M token 是标配,不是 beta。还带 Google Search grounding,能实时查最新文档。
怎么选?看场景。
数据不会说谎:Benchmark 对比
先上硬数据。注意不同 Benchmark 测的东西不一样,直接比数字有陷阱。
| 指标 | Claude Code (Opus 4.6) | Codex CLI (GPT-5.3-Codex) | Gemini CLI (Gemini 3 Pro) |
|---|---|---|---|
| SWE-bench Verified | 80.8% | 56.8%(SWE-bench Pro) | 未官方公布 |
| Terminal-Bench 2.0 | 65.4% | 77.3% | 未官方公布 |
| OSWorld Verified | 72.7% | 64.7% | 未官方公布 |
| 首次修改正确率 | ~95% | ~90% | ~85-88% |
| Token 效率 | 基准线 | 2-3x 更省 | 介于两者之间 |
| 生成速度 | ~15-25 tok/s | ~65-70 tok/s(Spark: 1000+) | ~30-40 tok/s |
一个关键发现:SWE-bench Verified 和 SWE-bench Pro 不是同一个东西。Verified 测的是经过人工确认的解决方案,Pro 跨 4 种语言。80.8% vs 56.8% 的差距是真实的,但你不能直接拿这两个数字说"Claude 比 Codex 强 24 个百分点"——它们测的不是同一套题。
但首次修改正确率这件事,我实测下来确实和表格里的数字对得上。Claude Code 经常一次改对,Codex CLI 偶尔漏个边缘 case,Gemini CLI……嗯,需要盯一下。
深度体验:每个工具到底好在哪
Claude Code:适合"我不确定怎么改"的场景
Claude Code 的 Agent Teams 功能是真能打。上次我让它重构用户认证模块:
claude"Set up an agent team:- Agent 1: refactor auth module to JWT- Agent 2: update integration tests- Agent 3: update API docsCoordinate through team lead. Merge when CI passes."三个子 agent 并行干活,一个 orchestrator 协调上下文、解决冲突。最后 CI 直接绿了。
不过也有翻车的时候。有一次在一个大项目里跑久了(超过 1000 回合),它开始"遗忘"某些文件的修改状态——上下文虽然大,但会话管理还是有天花板。
Codex CLI:适合"我知道要改什么,快就行"
Codex CLI 的沙箱模式我一开始觉得鸡肋——谁需要隔离啊?直到有一次让它跑自动化脚本,它差点删了我本地一个配置文件。沙箱救了命。
速度是真的快。Spark 变体在 Cerebras 硬件上能跑到 1000+ tok/s——我一开始以为数据错了,实测下来,复杂任务确实比 Claude Code 快 3-5 倍。
但深度不行。有一次我让它排查一个跨模块的竞态条件 bug,它找到了表面症状,没找到根因。同样的 bug,Claude Code 一路追到了三层抽象以下的锁问题。
说得直白点:Codex CLI 是个优秀的执行者,但不是个优秀的思考者。
Gemini CLI:免费的到底行不行
Gemini CLI 最大的优势不是技术,是价格。
1000 次/天免费,连信用卡都不要。你有一个 Google 账号就能用。这一点对于预算紧张的个人开发者或学生来说,杀伤力巨大。
而且它的 1M token 上下文不是画饼——是标配。我试过把一个中型 Node.js 项目(大概 80 个文件)整个丢进去,它确实能引用到项目深处的代码。
问题是——准确率。同样是修复一个跨模块的 bug,Gemini CLI 给了方案 A,我说不对,它换方案 B,还不对……来回五次才定位到问题。Claude Code 一次就找到了。
不过 Google Search grounding 这功能是真的香。写依赖最新 API 的代码时,Claude Code 和 Codex CLI 的知识可能已经过时了(训练数据截止日期在那),但 Gemini CLI 能实时查文档。
价格:不是越贵越好
| 使用场景 | 推荐工具 | 月费估算 | 理由 |
|---|---|---|---|
| 学生/个人开发 | Gemini CLI | 免费 | 1000次/天够用 |
| 日常 CRUD/小项目 | Codex CLI | $20 | 速度快,token省 |
| 复杂重构/架构调整 | Claude Code | $20-100 | 一次改对的成本优势 |
| 团队协作/CI 集成 | 混合使用 | $40-120 | 各取所长 |
| 预算无限 | Claude Code Max 20x | $200 | Agent Teams + 高配额 |
这里有个反直觉的结论:Claude Code 虽然单价最贵,但单次任务成本可能最低——因为它一次改对的概率高,省掉了后续的调试迭代。
你该怎么选?
一句话总结:
不确定怎么改,选 Claude Code。确定怎么改、想快点完事,选 Codex CLI。不想花钱、或需要超大上下文,选 Gemini CLI。
最好的开发者——2026 年我看到越来越多的人——其实是三个都用。日常开发用 Gemini CLI(免费),复杂重构切到 Claude Code,跑自动化脚本丢给 Codex CLI 的沙箱。
你平时用哪个?遇到过什么坑?评论区说说,我整理到后续文章里。
数据来源:SWE-bench 公开榜单、Terminal-Bench 2.0、各产品官方文档+个人实测。Benchmark 数据截至 2026 年 5 月。