2026年4月24号,DeepSeek V4发布。
同一天,GPT-5.5也发布了。
这不是巧合,这是宣战。
但测了三天之后,我发现一个反直觉的结论,DeepSeek V4的真正对手根本不是GPT-4o,也不是Claude 3.5。
它要干掉的,是长上下文处理这件事本身。
一、先泼盆冷水,别被1.6万亿参数唬住了
很多人看到1.6T总参数就高潮了。
但参数多不等于牛逼,激活多少才是关键。
V4-Pro总参数1.6万亿,但每次推理只激活490亿。V4-Flash更狠,2840亿总参数只激活130亿。
这叫MoE架构,混合专家模型。
用人话解释,就是一个超级医院有上千个专家,但来看病的每个病人,系统只挑最相关的8个专家会诊,其他专家该喝茶喝茶。
这套机制让V4的推理成本只有同规模稠密模型的1/4。
但成本便宜只是副产品。
真正炸裂的是,V4全系原生支持100万token上下文。
100万token什么概念,相当于《三体》三部曲加一起,还能再塞半本进去。
而且这不是实验室里的演示功能,是API默认标配。
二、CSA+HCA,这对组合拳到底打在哪了
传统Transformer处理长文本有个致命bug。
上下文越长,计算量呈平方级爆炸。
10万token的计算量是1万token的100倍,100万token就是1万倍。
这就是为什么以前百万上下文只存在于论文里,真用起来贵到肉疼。
V4的解法很粗暴,把阅读方式改了。
它搞了两个模块,CSA和HCA,交替干活。
CSA是精读模块,先把每4个token压缩成1个摘要,再从这25万份摘要里挑最相关的512到1024个深度计算。
HCA是略读模块,更激进,每128个token压成1个宏观概念块,100万字压缩到不到8000块,通读一遍建立全局认知。
两者配合,HCA先快速浏览大纲,CSA再精准定位重点。
同时保留最近128个token的原始状态,确保正在写的句子不跑偏。
这套组合拳的结果是,在100万token场景下,V4-Pro的单token推理计算量降到前代V3.2的27%,KV缓存占用降到10%。
V4-Flash更夸张,分别降到10%和7%。
这不是优化,这是对计算逻辑的重构。
三、我实测了五个维度,结果有点意外
1. 代码生成,开源模型里基本没对手
V4-Pro在LiveCodeBench拿93.5分,比Claude Opus 4.6的88.8和Gemini 3.1 Pro的91.7都高。
Codeforces竞赛评分3206,在人类选手里能排第23名。
我让它生成一个赛博朋克风格的GTA6介绍页,7秒出代码,霓虹灯特效、粒子故障动画全有,直接能跑。
但复杂3D交互还是差点意思,带物理拖拽的纸质小票效果,首次生成会空白,得修2到3轮。
结论很明确,仓库级代码理解、后端逻辑生成、Agent编程任务,V4性价比极高。
轻度前端、强审美UI还是得靠Claude Opus把关。
2. 数学推理,短板补上了但不是最强
MATH-500基准V4-Pro拿96.1分,超过GPT-5.4的94.5。
初中几何证明题能完整写出三步推理,标注定理依据。
但竞赛级组合数学还是得开思考模式,否则容易跳步出错。
从V3偏工程轻数学的定位,调整成了均衡提升。
但要说竞赛级、博士级数学解题,GPT系列和Gemini还是更稳。
3. 长文本理解,这是真·核心杀器
MRCR 1M准确率83.5%,超过Gemini 3.1 Pro的76.3%,仅次于Claude Opus 4.6的92.9%。
我实测扔了24万字的《斗破苍穹》进去,中间插了一段《都市超能高手》的内容。
V4秒级定位到异常片段,准确率很高。
更狠的是价格,百万token调用成本仅需0.02元,是GPT-4o的1/20。
Gemini 3系列虽然也能处理百万上下文,但价格是V4的20倍。
Claude 3.5上下文只有200K,GPT-4o只有128K。
长文本场景下,V4性价比是碾压级的。
但要注意一个坑,多轮对话超过15轮后,会出现上下文遗忘问题,比Gemini 3的长程一致性稍弱。
4. 逻辑推理,务实够用但不炫技
MMLU-Pro得分87.5%,GPQA约72分,比V3提升12%到15%。
经典镜子举手测试,V4能正确回答左手,推理过程清晰。
5台机器5分钟产5个零件,100台产100个要多久,V4能算出正确的5分钟。
但它没点出这是常见直觉陷阱题,自我认知类元推理弱于GPT-5.5。
日常业务逻辑、条件判断稳定性强,多轮嵌套条件陷阱、需要世界知识辅助的复杂推演,比Claude 3.5/4系列稍弱。
5. 多模态,不好意思,没有
当前V4是纯文本模型,图片视频处理不了。
这是最大短板,需要视觉分析的场景直接劝退。
四、价格屠夫再次挥刀,但这次刀法不一样
V4-Flash百万token成本0.02元,V4-Pro也就0.145元。
对比GPT-4o,成本是1/20到1/30。
Claude Opus 4.7的输出价格是180元/百万token,V4-Pro只要24元。
这差距不是选择问题,是生存问题。
对小团队和个人开发者来说,以前用GPT-4o每月几万块,现在用V4开源版本本地部署,成本几乎归零。
但价格低不是因为砍了模型能力,是MoE架构的计算效率带来的。
1.6T总参数推理只激活490B,单次推理成本大幅降低,主要能力没损失。
五、国产算力适配,这才是隐藏大招
V4首次在官方技术报告里,把华为昇腾NPU和英伟达GPU并列写入硬件验证清单。
昇腾910B芯片上,推理速度较初期版本提升35倍,能耗降低40%。
自研专家并行方案在昇腾NPU上实现了与英伟达GPU同等的加速效果,1.5到1.73倍。
这意味着什么,V4可能是首个在去CUDA生态中完成万亿参数闭环的国产大模型。
从1%的推理成本优势,到100%的国产算力适配,这两个数字指向同一个未来。
性能顶尖、成本可控、自主可控的中国AI底层技术栈,已经照进现实。
六、三个你必须知道的坑
坑一,最难的尾端任务会超时
38项任务实测,V4-Pro在多步骤任务完成分上略高于Claude Opus 4.7,但只完成了29项。
剩下9项因超时而中断,恰恰是最难的编码和推理任务。
复杂多文件重构、超长推理链、跨多步骤保持精确上下文,这些硬核任务上差距才真正显现。
坑二,长上下文精确召回不如Claude
V4能装进去100万字,但在精确位置召回上,Claude更强。
200页设计文档里精确找到第87页某个细节,Claude更擅长准确引用,V4偶尔会给出位置偏移的答案。
坑三,存在幻觉且表述很自信
部分回答会出现细节错误,但模型表述往往很自信,需要使用者自行判断。
七、到底该用哪个,我画了个决策树
日常编码、中文处理、批量任务、成本敏感,选V4-Flash。
复杂推理、代码生成、Agent规划、需要深度思考,选V4-Pro。
复杂多文件重构、超长推理链、需要极高可靠性,选Claude Opus 4.6/4.7。
强审美UI、需要多模态能力,选GPT-4o/5系列。
八、最后说几句真话
DeepSeek V4不是全面碾压的六边形战士。
它在编程和复杂推理上建立了优势,但在最广泛的通识知识上与最强闭源模型仍有微小差距。
多模态能力的缺失,让它在视觉相关场景直接出局。
但它在正确的时间点,解决了一个正确的痛点。
让百万级长上下文从昂贵的演示功能,变成了可大规模商业化的基础设施。
这才是V4的真正价值。
它不是来跟GPT-4o打架的。
它是来重新定义长文本处理这件事的。