news 2026/5/5 0:28:49

受够了 Kimi 的卡顿,我换 DeepSeek V4 跑 Claude Code,爽飞了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
受够了 Kimi 的卡顿,我换 DeepSeek V4 跑 Claude Code,爽飞了


我之前一直用 Kimi 跑 Claude Code。Kimi 的编程能力其实还行——SWE-bench 能到 80.2%,复杂重构和跨文件分析都撑得住。但它有一个让人头疼的问题:响应延迟太高了。

Kimi K2.6 是推理模型,每次请求前要花大量时间”思考”。根据 Artificial Analysis 的实测数据,Kimi 官方 API 的首 token 延迟(TTFT)平均 34 秒——这 34 秒里它在内部推理,终端上什么动静都没有。放在 Agent 模式下尤其致命:一个任务走 3 轮 tool call,每轮都要重新推理一遍,加起来干等两分钟是常事。

更头疼的是稳定性。在高负载时段,Kimi 会从 Thinking 模式偷偷降级到 Instant 模式——推理深度骤降,输出质量跟着跳水。社区里还有人反馈,某些框架下 Kimi 的 timeout 率高得离谱,跑着跑着就断了。

我自己的体感是:坐下来想认真写会代码,三分之一的时间花在等响应上。不是不能用,是不够流畅。

所以当 DeepSeek 在 4 月 24 日发布 V4 时,我最关心的是两个问题:快不快?稳不稳?

结果比预期好。不仅延迟从 34 秒降到 2-3 秒,SWE-bench 还拿了 80.6%——几乎打平 Claude Opus 4.6 的 80.8%。关键是同样兼容 Anthropic 协议,从 Kimi 切过来只需改几行配置,没有任何迁移成本。编程能力打平 Opus,月费还只要 $73。

我花了一个周末把这条路完整跑了一遍。结论先说在前面:能打,值得换。但有些坑你得提前知道。

一、先看一张表

排参数之前,先看实测。我整理了 DeepSeek V4 在编程基准上跟几个主流模型的对比:

基准

V4-Pro

Opus 4.6

GPT-5.4

Gemini 3.1

LiveCodeBench

93.5 🥇

88.8

91.7

SWE-bench Verified

80.6%

80.8%

Codeforces

3206 🥇

3168

3052

Terminal Bench 2.0

67.9%

65.4%

75.1%

68.5%

两条关键信息:

1.SWE-bench Verified——Agent 编程的黄金标准——V4-Pro 拿了 80.6%。Claude Opus 4.6 是 80.8%。差了 0.2 个百分点。差不多就是”同一道题 Claude 做对了但没写注释”的差距。

2.LiveCodeBench 和 Codeforces 双料第一。这意味着在算法竞赛和实时编程任务上,V4 已经不输任何模型。

然后我们看价格:

模型

输出 $/M tokens

月费估算

Claude Opus 4.6

$75.00

~$900

GPT-5.4

~$60

~$600

Gemini 3.1 Pro

~$10.50

~$120

DeepSeek V4-Pro$3.48~$73
DeepSeek V4-Flash$0.28~$6

V4-Pro 的输出价格是 Claude Opus 的1/21。V4-Flash 是1/268

而且这个价格还在降——4 月底 DeepSeek 又做了一轮永久降价,缓存命中后再打 1 折。实测编程成本比发布时又降了约 83%。

速度呢?这才是对我影响最大的提升。Kimi K2.6 的 TTFT 平均 34 秒,V4-Pro 降到 2-3 秒——不是快了一点,是等待模式完全不同了。以前发一个重构请求,够我切出去回一条微信再回来。现在刚切到浏览器,余光扫到终端已经开始吐结果了。

TPS(每秒输出 token)也稳在 80+,跟 Claude Opus 持平。对 Agent 模式来说这更重要——每一轮 tool call 都快了,整个任务的总耗时从”分钟级”压到了”秒级”。

二、三步接入:改完就走

和在 Claude Code 里用 Kimi 一样,DeepSeek V4 也兼容 Anthropic Messages API,不需要任何中间件。

编辑~/.claude/settings.json

{
”$schema”: “https://json.schemastore.org/claude-code-settings.json“,
”env”: {
”ANTHROPIC_BASE_URL”: “https://api.deepseek.com/anthropic“,
”ANTHROPIC_AUTH_TOKEN”: “sk-你的DeepSeek-API-Key”,
”ANTHROPIC_DEFAULT_OPUS_MODEL”: “deepseek-v4-pro”,
”ANTHROPIC_DEFAULT_SONNET_MODEL”: “deepseek-v4-pro”,
”ANTHROPIC_DEFAULT_HAIKU_MODEL”: “deepseek-v4-flash”,
”CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC”: “1”,
”CLAUDE_CODE_EFFORT_LEVEL”: “max”,
”API_TIMEOUT_MS”: “600000”
},
”model”: “opus”
}

改完退出 Claude Code 重开,搞定。

有 6 个容易踩的配置坑,我替你踩过了:


1. Base URL 别加 /v1。是 https://api.deepseek.com/anthropic,不是 /anthropic/v1。


2. Token 字段是 ANTHROPIC_AUTH_TOKEN,不是 ANTHROPIC_API_KEY。写错会一直 401,排查半天。


3. [1m] 后缀:需要才加,不加也能用。这个后缀的作用是告诉 Claude Code 客户端该模型支持 1M 上下文。不加的话默认按 200K 处理,超过 200K 触发自动压缩。日常使用中大部分会话根本碰不到 200K,不加完全没问题。只有项目超大、需要一次性喂入整个代码仓库时才有必要加。


4. 不要配 CLAUDE_CODE_SUBAGENT_MODEL。Claude Code 会自动按任务选 Haiku/Sonnet/Inherit,手动锁定会破坏经济性机制。


5. model 写 “opus” 而不是直接写模型名。通过 DEFAULT 映射体系按需切换即可。


6. 改完必须重启 Claude Code。不退出重开不会加载新配置。这是排查”怎么配了没效果”时排第一的原因。

三、实际用起来怎么样?跟 Kimi 比呢?

先说结论:Kimi 能干的它都能干,Kimi 的两个主要短板——延迟和不稳定——它都补上了。

比 Kimi 提升在哪

响应延迟——体感差距最大的维度。Kimi 的 TTFT 34 秒在 Agent 模式下会逐轮叠加:3 轮 tool call,光等就要近两分钟。V4-Pro 的 TTFT 2-3 秒,3 轮加起来不到 10 秒。同样的重构任务,Kimi 够你起身倒杯水,V4-Pro 你已经看到结果了。不是”快一点”,是等待模式完全不同。

稳定性明显更好。Kimi 有个让人头疼的问题——高负载时从 Thinking 模式偷偷降级到 Instant 模式,推理深度骤降,输出质量跟着跳水。某些框架下 timeout 率也很高。V4-Pro 跑了一周没遇到过类似问题,输出质量稳定可预期。

工具调用更可靠。这是从社区反馈和我自己体验交叉验证的——Kimi K2.6 偶尔在 tool call 上出问题(参数遗漏、格式错误),V4-Pro 对 Anthropic 协议的 tool_use / tool_choice 适配更到位,结构化任务准确率高。

代码生成体感接近 Claude Sonnet 4.6。跨文件分析能力强,复杂重构能撑住。社区实测结论是:”写代码、改 bug、跑 Skills、自动化部署,全部丝滑。”申万金工的研究也验证了 Claude Code + V4-Pro 在设计研究框架和自主性上表现出色。

自修正能力不错。DSL 配置这种专业任务第一次不一定到位,但把错误信息喂回去能自己修正。这在长任务里很实用。

不能打的(Kimi 也一样)

不支持图片输入。这是目前最大的短板——V4-Pro 和 V4-Flash 都是纯文本模型。发给它的截图、UI 设计稿、终端报错截图,它看到的只是占位符。Kimi 在这方面同样是纯文本,所以对我来说不算降级。如果你的工作流频繁涉及「看截图 → 改代码」,暂时还需要一条 Claude 原生的后路。

好消息:4 月 29 日 DeepSeek 已经在 Web 端灰度推送了识图模式,API 端预计两周内开放。

超长上下文偶现不稳定。标称 1M tokens,但超长上下文 + 复杂推理 + 多轮工具调用叠加时,偶尔会出现输出质量下降。建议长任务拆成短会话。

Max effort 模式推理时间较长。V4-Pro 在深度推理模式下可能会等比较久,API_TIMEOUT_MS 建议设 600000(10 分钟)。不过这跟 Kimi 的延迟不是一回事——Kimi 是每次请求都要等 30+ 秒,V4-Pro 只有 max effort 深度推理时才慢一些,日常任务响应依然很快。

四、路由策略:Pro 和 Flash 怎么分工

V4 有两个版本:V4-Pro(1.6T 参数,每 token 激活 49B)和 V4-Flash(284B,激活 13B)。

我的分工逻辑很简单:

任务类型

用哪个

理由

复杂代码生成、跨文件架构分析

V4-Pro

需要深度推理

工具调用、文件读写、简单问答

V4-Flash

够快够省钱

SubAgent 辅助任务

V4-Flash

Claude Code 自动路由

一句话:重量级推理给 Pro,轻量执行给 Flash。既保住能力上限,又控制成本。

思考强度也有讲究:


• 简单修改/问答 → none 或 low,够用且快

• 中等复杂任务 → high,平衡质量与速度

• 复杂架构/重构 → max,但记得调大 timeout

• 第一次接入建议从 medium 开始验证稳定性

五、账算清楚:从 $900 到 $73

我们按典型 Claude Code 使用场景算一笔账——每天 50K 输入 + 10K 输出,发 20 次请求:

模型

日成本

月成本

V4-Flash

~$0.20

~$6

V4-Pro

~$2.43

~$73

Claude Opus 4.6

~$30

~$900

月费从 $900 压到 $73,降了92%。如果你同时用 Flash 处理轻量任务,实际账单还会更低。

还有一个容易被忽略的点:Claude Code 的真实工作负载中,92.4% 是 cache_read(来自 sites.diy 的代理日志实测)。DeepSeek V4 的缓存命中定价极低——V4-Pro 缓存命中后仅 $0.145/M tokens——所以真实世界的成本优势比标价看起来更大。

再想想多套订阅叠付、API overflow、上下文喂养这些隐性成本,DeepSeek V4 堵住了其中最大的两个口子。

六、”中国底座 + 海外 harness” 的时代来了

这篇文章写到这里,我想聊一个更大的判断。

“我用 Claude Code 但不一定用 Claude 模型”——这已经是高级用户的默认姿势。现在 DeepSeek V4 把这句话又往前推了一步。

“中国底座 + 海外 harness” 正在成为 AI 编码的主流省钱方案。

底座是 DeepSeek V4 / GLM / Kimi / MiniMax——价格越来越低,能力越来越强。Harness 是 Claude Code / Codex CLI——产品体验已经打磨到很难被替代的程度。

这个组合不是”退而求其次”,而是最优解。你用着地球上最好的 AI 编程交互界面,跑着价格只有 1/21 但能力几乎一样的模型。这不是省钱,这是套利。

而且对国内用户来说,还有一个隐藏红利:没有 Anthropic 封号焦虑。DeepSeek 是国内主体,计费透明、合规清晰。你再也不用担心某天醒来发现 Claude 账号被批量封禁。

七、唯一缺的那块拼图

如果你读到这里已经在改 settings.json 了——等一下。我需要非常诚实地告诉你 V4 目前最大的短板,以及它什么时候会被补上。

Vision(多模态识图)——缺失。

这意味着任何涉及图片的工作流——前端 UI 调试、设计稿还原、报错截图分析——你暂时还需要 Anthropic 原生 API 兜底。

但好消息是,DeepSeek 已经在 4 月 29 日于 Web 端灰度推送了识图功能。按照 DeepSeek 以往的节奏,API 端预计在两周内开放。

所以我目前的策略是:

第一阶段(现在)
├─ 纯代码/文本任务:全部走 DeepSeek V4
├─ 涉及图片的任务:临时去掉 ANTHROPIC_BASE_URL,回退 Anthropic 原生
└─ 改 bugs、跑脚本、日常开发:放心用

第二阶段(Vision API 开放后)
├─ 全面切换 DeepSeek V4
└─ Anthropic 纯当 backup

八、最后的建议

如果你是一个重度 Claude Code 用户——尤其是现在还在用 Kimi、对延迟和稳定性不太满意的——我建议你这周花 30 分钟做个实验:


1. 去platform.deepseek.com注册账号,充 $20

2. 改几行 settings.json

3. 用 V4-Pro 跑一天日常开发,跟 Kimi 对比一下体感

4. 如果满意,把 Haiku 映射到 Flash、Sonnet/Opus 映射到 Pro

5. 月度账单降了,响应快了,稳定性好了——三赢

如果你是一个团队的技术负责人,这件事更该做。一个团队一年 AI 编码订阅花 $12,000+,切换到 DeepSeek V4 后可以被压到 $1,000 以内——省下来的 $11,000,够给团队每人买一张顶配显卡。

AI 编码的军备竞赛,比的不是谁买的模型最贵,比的是谁的路由策略最好。Kimi 到 DeepSeek V4 这个切换,是我今年在开发效率上花得最值的 30 分钟。

你现在用哪个模型跑 Claude Code?
有没有遇到过延迟太高或被卡住的情况?
如果已经换了 DeepSeek V4,你的体感怎么样?
欢迎留言聊聊。

本文数据来源:DeepSeek 官方 API 文档、Artificial Analysis 独立评测、sites.diy blended pricing 实测、社区多篇上手评测。V4-Pro 和 V4-Flash 的 benchmark 分数来自 DeepSeek 官方技术报告及第三方独立评测。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 0:28:14

WinUtil:Windows系统优化与软件管理的终极一体化解决方案

WinUtil:Windows系统优化与软件管理的终极一体化解决方案 【免费下载链接】winutil Chris Titus Techs Windows Utility - Install Programs, Tweaks, Fixes, and Updates 项目地址: https://gitcode.com/GitHub_Trending/wi/winutil 还在为Windows系统维护而…

作者头像 李华
网站建设 2026/5/5 0:22:18

SAGE技术:动态数据生成与执行反馈的实践指南

1. 项目概述:当数据生成遇上执行反馈在数据科学和机器学习领域,我们经常面临一个根本性矛盾:算法对高质量训练数据的渴求与现实中数据获取的高成本之间的冲突。传统数据生成方法如同闭门造车——我们设定规则、编写脚本,生成的数据…

作者头像 李华
网站建设 2026/5/5 0:21:57

炉石传说脚本:3种高效策略解决你的日常对战痛点

炉石传说脚本:3种高效策略解决你的日常对战痛点 【免费下载链接】Hearthstone-Script Hearthstone script(炉石传说脚本) 项目地址: https://gitcode.com/gh_mirrors/he/Hearthstone-Script 还在为炉石传说的日常任务感到头疼吗&#…

作者头像 李华
网站建设 2026/5/5 0:19:40

视觉MoE框架ProMoE:高效图像生成与显存优化方案

1. 项目背景与核心价值视觉MoE(Mixture of Experts)框架是当前多模态大模型领域的重要研究方向。传统视觉Transformer模型在处理高分辨率图像时往往面临计算复杂度激增的问题,而ProMoE通过引入原型路由机制,在保持模型容量的同时显…

作者头像 李华