AI CLI 三巨头横评：Claude Code vs Codex CLI vs Gemini CLI（2026实测）-开发者社区

上周我在一个微服务项目上重构支付模块——12个文件，跨三个目录，涉及 Stripe 旧 API 迁移。

先试了 Codex CLI，十来秒就跑完了。一看代码，逻辑是对的，但有个边界条件没处理。再试 Claude Code，它先读了十多秒（1M token 上下文，整个项目塞了进去），然后开始改。慢是真慢，但改完我几乎不用调。

我还特地用 Gemini CLI 跑了同一个任务——免费的，1M 上下文，开 Deep Think 模式。结果嘛……只能说符合它的价格。

这不是一篇评测软文。我花了三天时间，用同一组任务测试了这三个 CLI 工具——不是为了跑分，是真实干活。下面是我的结论。

先表态：三个工具，三个哲学

AI CLI 赛道在 2026 年已经杀成红海了。但真正站住的，也就这三家。

工具	开发商	核心模型	开源？	起售价
Claude Code	Anthropic	Opus 4.6	❌ 闭源	$20/月（Pro）
Codex CLI	OpenAI	GPT-5.3-Codex	✅ Apache 2.0	$20/月（ChatGPT Plus）
Gemini CLI	Google	Gemini 3 Pro	✅ 开源	免费（1000次/天）

数据来自官方文档和 SWE-bench 公开榜单。

它们的差异不只是模型不同，而是架构哲学完全不同：

Claude Code：本地运行，深度推理。改代码前先把整个项目"读一遍"，脑子里建好依赖图再动手。慢，但准。
Codex CLI：默认跑在云端沙箱里。隔离执行，安全第一。速度快，token 用量省，适合"你明确知道要改什么"的场景。
Gemini CLI：免费、开源、超大上下文。1M token 是标配，不是 beta。还带 Google Search grounding，能实时查最新文档。

怎么选？看场景。

数据不会说谎：Benchmark 对比

先上硬数据。注意不同 Benchmark 测的东西不一样，直接比数字有陷阱。

指标	Claude Code (Opus 4.6)	Codex CLI (GPT-5.3-Codex)	Gemini CLI (Gemini 3 Pro)
SWE-bench Verified	80.8%	56.8%（SWE-bench Pro）	未官方公布
Terminal-Bench 2.0	65.4%	77.3%	未官方公布
OSWorld Verified	72.7%	64.7%	未官方公布
首次修改正确率	~95%	~90%	~85-88%
Token 效率	基准线	2-3x 更省	介于两者之间
生成速度	~15-25 tok/s	~65-70 tok/s（Spark: 1000+）	~30-40 tok/s

一个关键发现：SWE-bench Verified 和 SWE-bench Pro 不是同一个东西。Verified 测的是经过人工确认的解决方案，Pro 跨 4 种语言。80.8% vs 56.8% 的差距是真实的，但你不能直接拿这两个数字说"Claude 比 Codex 强 24 个百分点"——它们测的不是同一套题。

但首次修改正确率这件事，我实测下来确实和表格里的数字对得上。Claude Code 经常一次改对，Codex CLI 偶尔漏个边缘 case，Gemini CLI……嗯，需要盯一下。

深度体验：每个工具到底好在哪

Claude Code：适合"我不确定怎么改"的场景

Claude Code 的 Agent Teams 功能是真能打。上次我让它重构用户认证模块：

claude"Set up an agent team:- Agent 1: refactor auth module to JWT- Agent 2: update integration tests- Agent 3: update API docsCoordinate through team lead. Merge when CI passes."

三个子 agent 并行干活，一个 orchestrator 协调上下文、解决冲突。最后 CI 直接绿了。

不过也有翻车的时候。有一次在一个大项目里跑久了（超过 1000 回合），它开始"遗忘"某些文件的修改状态——上下文虽然大，但会话管理还是有天花板。

Codex CLI：适合"我知道要改什么，快就行"

Codex CLI 的沙箱模式我一开始觉得鸡肋——谁需要隔离啊？直到有一次让它跑自动化脚本，它差点删了我本地一个配置文件。沙箱救了命。

速度是真的快。Spark 变体在 Cerebras 硬件上能跑到 1000+ tok/s——我一开始以为数据错了，实测下来，复杂任务确实比 Claude Code 快 3-5 倍。

但深度不行。有一次我让它排查一个跨模块的竞态条件 bug，它找到了表面症状，没找到根因。同样的 bug，Claude Code 一路追到了三层抽象以下的锁问题。

说得直白点：Codex CLI 是个优秀的执行者，但不是个优秀的思考者。

Gemini CLI：免费的到底行不行

Gemini CLI 最大的优势不是技术，是价格。

1000 次/天免费，连信用卡都不要。你有一个 Google 账号就能用。这一点对于预算紧张的个人开发者或学生来说，杀伤力巨大。

而且它的 1M token 上下文不是画饼——是标配。我试过把一个中型 Node.js 项目（大概 80 个文件）整个丢进去，它确实能引用到项目深处的代码。

问题是——准确率。同样是修复一个跨模块的 bug，Gemini CLI 给了方案 A，我说不对，它换方案 B，还不对……来回五次才定位到问题。Claude Code 一次就找到了。

不过 Google Search grounding 这功能是真的香。写依赖最新 API 的代码时，Claude Code 和 Codex CLI 的知识可能已经过时了（训练数据截止日期在那），但 Gemini CLI 能实时查文档。

价格：不是越贵越好

使用场景	推荐工具	月费估算	理由
学生/个人开发	Gemini CLI	免费	1000次/天够用
日常 CRUD/小项目	Codex CLI	$20	速度快，token省
复杂重构/架构调整	Claude Code	$20-100	一次改对的成本优势
团队协作/CI 集成	混合使用	$40-120	各取所长
预算无限	Claude Code Max 20x	$200	Agent Teams + 高配额