受够了 Kimi 的卡顿，我换 DeepSeek V4 跑 Claude Code，爽飞了-开发者社区

我之前一直用 Kimi 跑 Claude Code。Kimi 的编程能力其实还行——SWE-bench 能到 80.2%，复杂重构和跨文件分析都撑得住。但它有一个让人头疼的问题：响应延迟太高了。

Kimi K2.6 是推理模型，每次请求前要花大量时间”思考”。根据 Artificial Analysis 的实测数据，Kimi 官方 API 的首 token 延迟（TTFT）平均 34 秒——这 34 秒里它在内部推理，终端上什么动静都没有。放在 Agent 模式下尤其致命：一个任务走 3 轮 tool call，每轮都要重新推理一遍，加起来干等两分钟是常事。

更头疼的是稳定性。在高负载时段，Kimi 会从 Thinking 模式偷偷降级到 Instant 模式——推理深度骤降，输出质量跟着跳水。社区里还有人反馈，某些框架下 Kimi 的 timeout 率高得离谱，跑着跑着就断了。

我自己的体感是：坐下来想认真写会代码，三分之一的时间花在等响应上。不是不能用，是不够流畅。

所以当 DeepSeek 在 4 月 24 日发布 V4 时，我最关心的是两个问题：快不快？稳不稳？

结果比预期好。不仅延迟从 34 秒降到 2-3 秒，SWE-bench 还拿了 80.6%——几乎打平 Claude Opus 4.6 的 80.8%。关键是同样兼容 Anthropic 协议，从 Kimi 切过来只需改几行配置，没有任何迁移成本。编程能力打平 Opus，月费还只要 $73。

我花了一个周末把这条路完整跑了一遍。结论先说在前面：能打，值得换。但有些坑你得提前知道。

一、先看一张表

排参数之前，先看实测。我整理了 DeepSeek V4 在编程基准上跟几个主流模型的对比：

基准	V4-Pro	Opus 4.6	GPT-5.4	Gemini 3.1
LiveCodeBench	93.5 🥇	88.8	—	91.7
SWE-bench Verified	80.6%	80.8%	—	—
Codeforces	3206 🥇	—	3168	3052
Terminal Bench 2.0	67.9%	65.4%	75.1%	68.5%

两条关键信息：

1.SWE-bench Verified——Agent 编程的黄金标准——V4-Pro 拿了 80.6%。Claude Opus 4.6 是 80.8%。差了 0.2 个百分点。差不多就是”同一道题 Claude 做对了但没写注释”的差距。

2.LiveCodeBench 和 Codeforces 双料第一。这意味着在算法竞赛和实时编程任务上，V4 已经不输任何模型。

然后我们看价格：

模型	输出 $/M tokens	月费估算
Claude Opus 4.6	$75.00	~$900
GPT-5.4	~$60	~$600
Gemini 3.1 Pro	~$10.50	~$120
DeepSeek V4-Pro	$3.48	~$73
DeepSeek V4-Flash	$0.28	~$6

V4-Pro 的输出价格是 Claude Opus 的1/21。V4-Flash 是1/268。

而且这个价格还在降——4 月底 DeepSeek 又做了一轮永久降价，缓存命中后再打 1 折。实测编程成本比发布时又降了约 83%。

速度呢？这才是对我影响最大的提升。Kimi K2.6 的 TTFT 平均 34 秒，V4-Pro 降到 2-3 秒——不是快了一点，是等待模式完全不同了。以前发一个重构请求，够我切出去回一条微信再回来。现在刚切到浏览器，余光扫到终端已经开始吐结果了。

TPS（每秒输出 token）也稳在 80+，跟 Claude Opus 持平。对 Agent 模式来说这更重要——每一轮 tool call 都快了，整个任务的总耗时从”分钟级”压到了”秒级”。

二、三步接入：改完就走

和在 Claude Code 里用 Kimi 一样，DeepSeek V4 也兼容 Anthropic Messages API，不需要任何中间件。

编辑~/.claude/settings.json：

{
”$schema”: “https://json.schemastore.org/claude-code-settings.json“,
”env”: {
”ANTHROPIC_BASE_URL”: “https://api.deepseek.com/anthropic“,
”ANTHROPIC_AUTH_TOKEN”: “sk-你的DeepSeek-API-Key”,
”ANTHROPIC_DEFAULT_OPUS_MODEL”: “deepseek-v4-pro”,
”ANTHROPIC_DEFAULT_SONNET_MODEL”: “deepseek-v4-pro”,
”ANTHROPIC_DEFAULT_HAIKU_MODEL”: “deepseek-v4-flash”,
”CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC”: “1”,
”CLAUDE_CODE_EFFORT_LEVEL”: “max”,
”API_TIMEOUT_MS”: “600000”
},
”model”: “opus”
}

改完退出 Claude Code 重开，搞定。

有 6 个容易踩的配置坑，我替你踩过了：

1. Base URL 别加 /v1。是 https://api.deepseek.com/anthropic，不是 /anthropic/v1。

2. Token 字段是 ANTHROPIC_AUTH_TOKEN，不是 ANTHROPIC_API_KEY。写错会一直 401，排查半天。

3. [1m] 后缀：需要才加，不加也能用。这个后缀的作用是告诉 Claude Code 客户端该模型支持 1M 上下文。不加的话默认按 200K 处理，超过 200K 触发自动压缩。日常使用中大部分会话根本碰不到 200K，不加完全没问题。只有项目超大、需要一次性喂入整个代码仓库时才有必要加。

4. 不要配 CLAUDE_CODE_SUBAGENT_MODEL。Claude Code 会自动按任务选 Haiku/Sonnet/Inherit，手动锁定会破坏经济性机制。

5. model 写 “opus” 而不是直接写模型名。通过 DEFAULT 映射体系按需切换即可。

6. 改完必须重启 Claude Code。不退出重开不会加载新配置。这是排查”怎么配了没效果”时排第一的原因。

三、实际用起来怎么样？跟 Kimi 比呢？

先说结论：Kimi 能干的它都能干，Kimi 的两个主要短板——延迟和不稳定——它都补上了。

比 Kimi 提升在哪

响应延迟——体感差距最大的维度。Kimi 的 TTFT 34 秒在 Agent 模式下会逐轮叠加：3 轮 tool call，光等就要近两分钟。V4-Pro 的 TTFT 2-3 秒，3 轮加起来不到 10 秒。同样的重构任务，Kimi 够你起身倒杯水，V4-Pro 你已经看到结果了。不是”快一点”，是等待模式完全不同。

稳定性明显更好。Kimi 有个让人头疼的问题——高负载时从 Thinking 模式偷偷降级到 Instant 模式，推理深度骤降，输出质量跟着跳水。某些框架下 timeout 率也很高。V4-Pro 跑了一周没遇到过类似问题，输出质量稳定可预期。

工具调用更可靠。这是从社区反馈和我自己体验交叉验证的——Kimi K2.6 偶尔在 tool call 上出问题（参数遗漏、格式错误），V4-Pro 对 Anthropic 协议的 tool_use / tool_choice 适配更到位，结构化任务准确率高。

代码生成体感接近 Claude Sonnet 4.6。跨文件分析能力强，复杂重构能撑住。社区实测结论是：”写代码、改 bug、跑 Skills、自动化部署，全部丝滑。”申万金工的研究也验证了 Claude Code + V4-Pro 在设计研究框架和自主性上表现出色。

自修正能力不错。DSL 配置这种专业任务第一次不一定到位，但把错误信息喂回去能自己修正。这在长任务里很实用。

不能打的（Kimi 也一样）

不支持图片输入。这是目前最大的短板——V4-Pro 和 V4-Flash 都是纯文本模型。发给它的截图、UI 设计稿、终端报错截图，它看到的只是占位符。Kimi 在这方面同样是纯文本，所以对我来说不算降级。如果你的工作流频繁涉及「看截图 → 改代码」，暂时还需要一条 Claude 原生的后路。

好消息：4 月 29 日 DeepSeek 已经在 Web 端灰度推送了识图模式，API 端预计两周内开放。

超长上下文偶现不稳定。标称 1M tokens，但超长上下文 + 复杂推理 + 多轮工具调用叠加时，偶尔会出现输出质量下降。建议长任务拆成短会话。

Max effort 模式推理时间较长。V4-Pro 在深度推理模式下可能会等比较久，API_TIMEOUT_MS 建议设 600000（10 分钟）。不过这跟 Kimi 的延迟不是一回事——Kimi 是每次请求都要等 30+ 秒，V4-Pro 只有 max effort 深度推理时才慢一些，日常任务响应依然很快。

四、路由策略：Pro 和 Flash 怎么分工

V4 有两个版本：V4-Pro（1.6T 参数，每 token 激活 49B）和 V4-Flash（284B，激活 13B）。

我的分工逻辑很简单：

任务类型	用哪个	理由
复杂代码生成、跨文件架构分析	V4-Pro	需要深度推理
工具调用、文件读写、简单问答	V4-Flash	够快够省钱
SubAgent 辅助任务	V4-Flash	Claude Code 自动路由

一句话：重量级推理给 Pro，轻量执行给 Flash。既保住能力上限，又控制成本。

思考强度也有讲究：

• 简单修改/问答 → none 或 low，够用且快

• 中等复杂任务 → high，平衡质量与速度

• 复杂架构/重构 → max，但记得调大 timeout

• 第一次接入建议从 medium 开始验证稳定性

五、账算清楚：从 $900 到 $73

我们按典型 Claude Code 使用场景算一笔账——每天 50K 输入 + 10K 输出，发 20 次请求：

模型	日成本	月成本
V4-Flash	~$0.20	~$6
V4-Pro	~$2.43	~$73
Claude Opus 4.6	~$30	~$900

月费从 $900 压到 $73，降了92%。如果你同时用 Flash 处理轻量任务，实际账单还会更低。

还有一个容易被忽略的点：Claude Code 的真实工作负载中，92.4% 是 cache_read（来自 sites.diy 的代理日志实测）。DeepSeek V4 的缓存命中定价极低——V4-Pro 缓存命中后仅 $0.145/M tokens——所以真实世界的成本优势比标价看起来更大。

再想想多套订阅叠付、API overflow、上下文喂养这些隐性成本，DeepSeek V4 堵住了其中最大的两个口子。

六、”中国底座 + 海外 harness” 的时代来了

这篇文章写到这里，我想聊一个更大的判断。

“我用 Claude Code 但不一定用 Claude 模型”——这已经是高级用户的默认姿势。现在 DeepSeek V4 把这句话又往前推了一步。

“中国底座 + 海外 harness” 正在成为 AI 编码的主流省钱方案。

底座是 DeepSeek V4 / GLM / Kimi / MiniMax——价格越来越低，能力越来越强。Harness 是 Claude Code / Codex CLI——产品体验已经打磨到很难被替代的程度。

这个组合不是”退而求其次”，而是最优解。你用着地球上最好的 AI 编程交互界面，跑着价格只有 1/21 但能力几乎一样的模型。这不是省钱，这是套利。

而且对国内用户来说，还有一个隐藏红利：没有 Anthropic 封号焦虑。DeepSeek 是国内主体，计费透明、合规清晰。你再也不用担心某天醒来发现 Claude 账号被批量封禁。

七、唯一缺的那块拼图

如果你读到这里已经在改 settings.json 了——等一下。我需要非常诚实地告诉你 V4 目前最大的短板，以及它什么时候会被补上。

Vision（多模态识图）——缺失。

这意味着任何涉及图片的工作流——前端 UI 调试、设计稿还原、报错截图分析——你暂时还需要 Anthropic 原生 API 兜底。

但好消息是，DeepSeek 已经在 4 月 29 日于 Web 端灰度推送了识图功能。按照 DeepSeek 以往的节奏，API 端预计在两周内开放。

所以我目前的策略是：

第一阶段（现在）
├─ 纯代码/文本任务：全部走 DeepSeek V4
├─ 涉及图片的任务：临时去掉 ANTHROPIC_BASE_URL，回退 Anthropic 原生
└─ 改 bugs、跑脚本、日常开发：放心用

第二阶段（Vision API 开放后）
├─ 全面切换 DeepSeek V4
└─ Anthropic 纯当 backup

八、最后的建议

如果你是一个重度 Claude Code 用户——尤其是现在还在用 Kimi、对延迟和稳定性不太满意的——我建议你这周花 30 分钟做个实验：

1. 去platform.deepseek.com注册账号，充 $20

2. 改几行 settings.json

3. 用 V4-Pro 跑一天日常开发，跟 Kimi 对比一下体感

4. 如果满意，把 Haiku 映射到 Flash、Sonnet/Opus 映射到 Pro

5. 月度账单降了，响应快了，稳定性好了——三赢

如果你是一个团队的技术负责人，这件事更该做。一个团队一年 AI 编码订阅花 $12,000+，切换到 DeepSeek V4 后可以被压到 $1,000 以内——省下来的 $11,000，够给团队每人买一张顶配显卡。

AI 编码的军备竞赛，比的不是谁买的模型最贵，比的是谁的路由策略最好。Kimi 到 DeepSeek V4 这个切换，是我今年在开发效率上花得最值的 30 分钟。

你现在用哪个模型跑 Claude Code？
有没有遇到过延迟太高或被卡住的情况？
如果已经换了 DeepSeek V4，你的体感怎么样？
欢迎留言聊聊。

本文数据来源：DeepSeek 官方 API 文档、Artificial Analysis 独立评测、sites.diy blended pricing 实测、社区多篇上手评测。V4-Pro 和 V4-Flash 的 benchmark 分数来自 DeepSeek 官方技术报告及第三方独立评测。

受够了 Kimi 的卡顿，我换 DeepSeek V4 跑 Claude Code，爽飞了

WinUtil：Windows系统优化与软件管理的终极一体化解决方案

【技术底稿 27】私有库全栈落地：闲置台式机变分站开发环境，Ubuntu22.04+Docker 私有镜像 + FTP 服务闭环落地

【限时开源】PHP 8.9 Fiber微服务骨架（含自动上下文传播、分布式TraceID、熔断日志埋点）

SAGE技术：动态数据生成与执行反馈的实践指南

炉石传说脚本：3种高效策略解决你的日常对战痛点

视觉MoE框架ProMoE：高效图像生成与显存优化方案