我花三天实测了DeepSeek V4，发现它根本不是来跟GPT-4o打架的-开发者社区

2026年4月24号，DeepSeek V4发布。

同一天，GPT-5.5也发布了。

这不是巧合，这是宣战。

但测了三天之后，我发现一个反直觉的结论，DeepSeek V4的真正对手根本不是GPT-4o，也不是Claude 3.5。

它要干掉的，是长上下文处理这件事本身。

一、先泼盆冷水，别被1.6万亿参数唬住了

很多人看到1.6T总参数就高潮了。

但参数多不等于牛逼，激活多少才是关键。

V4-Pro总参数1.6万亿，但每次推理只激活490亿。V4-Flash更狠，2840亿总参数只激活130亿。

这叫MoE架构，混合专家模型。

用人话解释，就是一个超级医院有上千个专家，但来看病的每个病人，系统只挑最相关的8个专家会诊，其他专家该喝茶喝茶。

这套机制让V4的推理成本只有同规模稠密模型的1/4。

但成本便宜只是副产品。

真正炸裂的是，V4全系原生支持100万token上下文。

100万token什么概念，相当于《三体》三部曲加一起，还能再塞半本进去。

而且这不是实验室里的演示功能，是API默认标配。

二、CSA+HCA，这对组合拳到底打在哪了

传统Transformer处理长文本有个致命bug。

上下文越长，计算量呈平方级爆炸。

10万token的计算量是1万token的100倍，100万token就是1万倍。

这就是为什么以前百万上下文只存在于论文里，真用起来贵到肉疼。

V4的解法很粗暴，把阅读方式改了。

它搞了两个模块，CSA和HCA，交替干活。

CSA是精读模块，先把每4个token压缩成1个摘要，再从这25万份摘要里挑最相关的512到1024个深度计算。

HCA是略读模块，更激进，每128个token压成1个宏观概念块，100万字压缩到不到8000块，通读一遍建立全局认知。

两者配合，HCA先快速浏览大纲，CSA再精准定位重点。

同时保留最近128个token的原始状态，确保正在写的句子不跑偏。

这套组合拳的结果是，在100万token场景下，V4-Pro的单token推理计算量降到前代V3.2的27%，KV缓存占用降到10%。

V4-Flash更夸张，分别降到10%和7%。

这不是优化，这是对计算逻辑的重构。

三、我实测了五个维度，结果有点意外

1. 代码生成，开源模型里基本没对手

V4-Pro在LiveCodeBench拿93.5分，比Claude Opus 4.6的88.8和Gemini 3.1 Pro的91.7都高。

Codeforces竞赛评分3206，在人类选手里能排第23名。

我让它生成一个赛博朋克风格的GTA6介绍页，7秒出代码，霓虹灯特效、粒子故障动画全有，直接能跑。

但复杂3D交互还是差点意思，带物理拖拽的纸质小票效果，首次生成会空白，得修2到3轮。

结论很明确，仓库级代码理解、后端逻辑生成、Agent编程任务，V4性价比极高。

轻度前端、强审美UI还是得靠Claude Opus把关。

2. 数学推理，短板补上了但不是最强

MATH-500基准V4-Pro拿96.1分，超过GPT-5.4的94.5。

初中几何证明题能完整写出三步推理，标注定理依据。

但竞赛级组合数学还是得开思考模式，否则容易跳步出错。

从V3偏工程轻数学的定位，调整成了均衡提升。

但要说竞赛级、博士级数学解题，GPT系列和Gemini还是更稳。

3. 长文本理解，这是真·核心杀器

MRCR 1M准确率83.5%，超过Gemini 3.1 Pro的76.3%，仅次于Claude Opus 4.6的92.9%。

我实测扔了24万字的《斗破苍穹》进去，中间插了一段《都市超能高手》的内容。

V4秒级定位到异常片段，准确率很高。

更狠的是价格，百万token调用成本仅需0.02元，是GPT-4o的1/20。

Gemini 3系列虽然也能处理百万上下文，但价格是V4的20倍。

Claude 3.5上下文只有200K，GPT-4o只有128K。

长文本场景下，V4性价比是碾压级的。

但要注意一个坑，多轮对话超过15轮后，会出现上下文遗忘问题，比Gemini 3的长程一致性稍弱。

4. 逻辑推理，务实够用但不炫技

MMLU-Pro得分87.5%，GPQA约72分，比V3提升12%到15%。

经典镜子举手测试，V4能正确回答左手，推理过程清晰。

5台机器5分钟产5个零件，100台产100个要多久，V4能算出正确的5分钟。

但它没点出这是常见直觉陷阱题，自我认知类元推理弱于GPT-5.5。

日常业务逻辑、条件判断稳定性强，多轮嵌套条件陷阱、需要世界知识辅助的复杂推演，比Claude 3.5/4系列稍弱。

5. 多模态，不好意思，没有

当前V4是纯文本模型，图片视频处理不了。

这是最大短板，需要视觉分析的场景直接劝退。

四、价格屠夫再次挥刀，但这次刀法不一样

V4-Flash百万token成本0.02元，V4-Pro也就0.145元。

对比GPT-4o，成本是1/20到1/30。

Claude Opus 4.7的输出价格是180元/百万token，V4-Pro只要24元。

这差距不是选择问题，是生存问题。

对小团队和个人开发者来说，以前用GPT-4o每月几万块，现在用V4开源版本本地部署，成本几乎归零。

但价格低不是因为砍了模型能力，是MoE架构的计算效率带来的。

1.6T总参数推理只激活490B，单次推理成本大幅降低，主要能力没损失。

五、国产算力适配，这才是隐藏大招

V4首次在官方技术报告里，把华为昇腾NPU和英伟达GPU并列写入硬件验证清单。

昇腾910B芯片上，推理速度较初期版本提升35倍，能耗降低40%。

自研专家并行方案在昇腾NPU上实现了与英伟达GPU同等的加速效果，1.5到1.73倍。

这意味着什么，V4可能是首个在去CUDA生态中完成万亿参数闭环的国产大模型。

从1%的推理成本优势，到100%的国产算力适配，这两个数字指向同一个未来。

性能顶尖、成本可控、自主可控的中国AI底层技术栈，已经照进现实。

六、三个你必须知道的坑

坑一，最难的尾端任务会超时

38项任务实测，V4-Pro在多步骤任务完成分上略高于Claude Opus 4.7，但只完成了29项。

剩下9项因超时而中断，恰恰是最难的编码和推理任务。

复杂多文件重构、超长推理链、跨多步骤保持精确上下文，这些硬核任务上差距才真正显现。

坑二，长上下文精确召回不如Claude

V4能装进去100万字，但在精确位置召回上，Claude更强。

200页设计文档里精确找到第87页某个细节，Claude更擅长准确引用，V4偶尔会给出位置偏移的答案。

坑三，存在幻觉且表述很自信

部分回答会出现细节错误，但模型表述往往很自信，需要使用者自行判断。

七、到底该用哪个，我画了个决策树

日常编码、中文处理、批量任务、成本敏感，选V4-Flash。

复杂推理、代码生成、Agent规划、需要深度思考，选V4-Pro。

复杂多文件重构、超长推理链、需要极高可靠性，选Claude Opus 4.6/4.7。

强审美UI、需要多模态能力，选GPT-4o/5系列。

八、最后说几句真话

DeepSeek V4不是全面碾压的六边形战士。

它在编程和复杂推理上建立了优势，但在最广泛的通识知识上与最强闭源模型仍有微小差距。

多模态能力的缺失，让它在视觉相关场景直接出局。

但它在正确的时间点，解决了一个正确的痛点。

让百万级长上下文从昂贵的演示功能，变成了可大规模商业化的基础设施。

这才是V4的真正价值。

它不是来跟GPT-4o打架的。

它是来重新定义长文本处理这件事的。

我花三天实测了DeepSeek V4，发现它根本不是来跟GPT-4o打架的

一、先泼盆冷水，别被1.6万亿参数唬住了

二、CSA+HCA，这对组合拳到底打在哪了

三、我实测了五个维度，结果有点意外

1. 代码生成，开源模型里基本没对手

2. 数学推理，短板补上了但不是最强

3. 长文本理解，这是真·核心杀器

4. 逻辑推理，务实够用但不炫技

5. 多模态，不好意思，没有

四、价格屠夫再次挥刀，但这次刀法不一样

五、国产算力适配，这才是隐藏大招

六、三个你必须知道的坑

坑一，最难的尾端任务会超时

坑二，长上下文精确召回不如Claude

坑三，存在幻觉且表述很自信

七、到底该用哪个，我画了个决策树

八、最后说几句真话

【行情复盘】2026年5月12日（周二）

实战解析：如何彻底卸载Windows Defender防病毒软件

AI原生可编辑PPT生成：从SVG到DrawingML的技术实现与应用

从AI概念到落地：传统AI与生成式AI的技术分野与实战选型

基于Helm Chart在Kubernetes中部署docker-mailserver邮件服务器

维他动力获5亿Pre-A轮启动人形研发；优必选与日立达成合作人形机器人赋能制造；前小米高管创业工业通用具身大脑小雨智造获B+轮融资

一、先泼盆冷水，别被1.6万亿参数唬住了

二、CSA+HCA，这对组合拳到底打在哪了

三、我实测了五个维度，结果有点意外

1. 代码生成，开源模型里基本没对手

2. 数学推理，短板补上了但不是最强

3. 长文本理解，这是真·核心杀器

4. 逻辑推理，务实够用但不炫技

5. 多模态，不好意思，没有

四、价格屠夫再次挥刀，但这次刀法不一样

五、国产算力适配，这才是隐藏大招

六、三个你必须知道的坑

坑一，最难的尾端任务会超时

坑二，长上下文精确召回不如Claude

坑三，存在幻觉且表述很自信

七、到底该用哪个，我画了个决策树

八、最后说几句真话

【行情复盘】2026年5月12日（周二）

实战解析：如何彻底卸载Windows Defender防病毒软件

AI原生可编辑PPT生成：从SVG到DrawingML的技术实现与应用

从AI概念到落地：传统AI与生成式AI的技术分野与实战选型

基于Helm Chart在Kubernetes中部署docker-mailserver邮件服务器

维他动力获5亿Pre-A轮启动人形研发；优必选与日立达成合作人形机器人赋能制造； 前小米高管创业工业通用具身大脑小雨智造获B+轮融资

维他动力获5亿Pre-A轮启动人形研发；优必选与日立达成合作人形机器人赋能制造；前小米高管创业工业通用具身大脑小雨智造获B+轮融资