news 2026/5/13 6:47:38

我花三天实测了DeepSeek V4,发现它根本不是来跟GPT-4o打架的

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
我花三天实测了DeepSeek V4,发现它根本不是来跟GPT-4o打架的

2026年4月24号,DeepSeek V4发布。

同一天,GPT-5.5也发布了。

这不是巧合,这是宣战。

但测了三天之后,我发现一个反直觉的结论,DeepSeek V4的真正对手根本不是GPT-4o,也不是Claude 3.5。

它要干掉的,是长上下文处理这件事本身。

一、先泼盆冷水,别被1.6万亿参数唬住了

很多人看到1.6T总参数就高潮了。

但参数多不等于牛逼,激活多少才是关键。

V4-Pro总参数1.6万亿,但每次推理只激活490亿。V4-Flash更狠,2840亿总参数只激活130亿。

这叫MoE架构,混合专家模型。

用人话解释,就是一个超级医院有上千个专家,但来看病的每个病人,系统只挑最相关的8个专家会诊,其他专家该喝茶喝茶。

这套机制让V4的推理成本只有同规模稠密模型的1/4。

但成本便宜只是副产品。

真正炸裂的是,V4全系原生支持100万token上下文。

100万token什么概念,相当于《三体》三部曲加一起,还能再塞半本进去。

而且这不是实验室里的演示功能,是API默认标配。

二、CSA+HCA,这对组合拳到底打在哪了

传统Transformer处理长文本有个致命bug。

上下文越长,计算量呈平方级爆炸。

10万token的计算量是1万token的100倍,100万token就是1万倍。

这就是为什么以前百万上下文只存在于论文里,真用起来贵到肉疼。

V4的解法很粗暴,把阅读方式改了。

它搞了两个模块,CSA和HCA,交替干活。

CSA是精读模块,先把每4个token压缩成1个摘要,再从这25万份摘要里挑最相关的512到1024个深度计算。

HCA是略读模块,更激进,每128个token压成1个宏观概念块,100万字压缩到不到8000块,通读一遍建立全局认知。

两者配合,HCA先快速浏览大纲,CSA再精准定位重点。

同时保留最近128个token的原始状态,确保正在写的句子不跑偏。

这套组合拳的结果是,在100万token场景下,V4-Pro的单token推理计算量降到前代V3.2的27%,KV缓存占用降到10%。

V4-Flash更夸张,分别降到10%和7%。

这不是优化,这是对计算逻辑的重构。

三、我实测了五个维度,结果有点意外

1. 代码生成,开源模型里基本没对手

V4-Pro在LiveCodeBench拿93.5分,比Claude Opus 4.6的88.8和Gemini 3.1 Pro的91.7都高。

Codeforces竞赛评分3206,在人类选手里能排第23名。

我让它生成一个赛博朋克风格的GTA6介绍页,7秒出代码,霓虹灯特效、粒子故障动画全有,直接能跑。

但复杂3D交互还是差点意思,带物理拖拽的纸质小票效果,首次生成会空白,得修2到3轮。

结论很明确,仓库级代码理解、后端逻辑生成、Agent编程任务,V4性价比极高。

轻度前端、强审美UI还是得靠Claude Opus把关。

2. 数学推理,短板补上了但不是最强

MATH-500基准V4-Pro拿96.1分,超过GPT-5.4的94.5。

初中几何证明题能完整写出三步推理,标注定理依据。

但竞赛级组合数学还是得开思考模式,否则容易跳步出错。

从V3偏工程轻数学的定位,调整成了均衡提升。

但要说竞赛级、博士级数学解题,GPT系列和Gemini还是更稳。

3. 长文本理解,这是真·核心杀器

MRCR 1M准确率83.5%,超过Gemini 3.1 Pro的76.3%,仅次于Claude Opus 4.6的92.9%。

我实测扔了24万字的《斗破苍穹》进去,中间插了一段《都市超能高手》的内容。

V4秒级定位到异常片段,准确率很高。

更狠的是价格,百万token调用成本仅需0.02元,是GPT-4o的1/20。

Gemini 3系列虽然也能处理百万上下文,但价格是V4的20倍。

Claude 3.5上下文只有200K,GPT-4o只有128K。

长文本场景下,V4性价比是碾压级的。

但要注意一个坑,多轮对话超过15轮后,会出现上下文遗忘问题,比Gemini 3的长程一致性稍弱。

4. 逻辑推理,务实够用但不炫技

MMLU-Pro得分87.5%,GPQA约72分,比V3提升12%到15%。

经典镜子举手测试,V4能正确回答左手,推理过程清晰。

5台机器5分钟产5个零件,100台产100个要多久,V4能算出正确的5分钟。

但它没点出这是常见直觉陷阱题,自我认知类元推理弱于GPT-5.5。

日常业务逻辑、条件判断稳定性强,多轮嵌套条件陷阱、需要世界知识辅助的复杂推演,比Claude 3.5/4系列稍弱。

5. 多模态,不好意思,没有

当前V4是纯文本模型,图片视频处理不了。

这是最大短板,需要视觉分析的场景直接劝退。

四、价格屠夫再次挥刀,但这次刀法不一样

V4-Flash百万token成本0.02元,V4-Pro也就0.145元。

对比GPT-4o,成本是1/20到1/30。

Claude Opus 4.7的输出价格是180元/百万token,V4-Pro只要24元。

这差距不是选择问题,是生存问题。

对小团队和个人开发者来说,以前用GPT-4o每月几万块,现在用V4开源版本本地部署,成本几乎归零。

但价格低不是因为砍了模型能力,是MoE架构的计算效率带来的。

1.6T总参数推理只激活490B,单次推理成本大幅降低,主要能力没损失。

五、国产算力适配,这才是隐藏大招

V4首次在官方技术报告里,把华为昇腾NPU和英伟达GPU并列写入硬件验证清单。

昇腾910B芯片上,推理速度较初期版本提升35倍,能耗降低40%。

自研专家并行方案在昇腾NPU上实现了与英伟达GPU同等的加速效果,1.5到1.73倍。

这意味着什么,V4可能是首个在去CUDA生态中完成万亿参数闭环的国产大模型。

从1%的推理成本优势,到100%的国产算力适配,这两个数字指向同一个未来。

性能顶尖、成本可控、自主可控的中国AI底层技术栈,已经照进现实。

六、三个你必须知道的坑

坑一,最难的尾端任务会超时

38项任务实测,V4-Pro在多步骤任务完成分上略高于Claude Opus 4.7,但只完成了29项。

剩下9项因超时而中断,恰恰是最难的编码和推理任务。

复杂多文件重构、超长推理链、跨多步骤保持精确上下文,这些硬核任务上差距才真正显现。

坑二,长上下文精确召回不如Claude

V4能装进去100万字,但在精确位置召回上,Claude更强。

200页设计文档里精确找到第87页某个细节,Claude更擅长准确引用,V4偶尔会给出位置偏移的答案。

坑三,存在幻觉且表述很自信

部分回答会出现细节错误,但模型表述往往很自信,需要使用者自行判断。

七、到底该用哪个,我画了个决策树

日常编码、中文处理、批量任务、成本敏感,选V4-Flash。

复杂推理、代码生成、Agent规划、需要深度思考,选V4-Pro。

复杂多文件重构、超长推理链、需要极高可靠性,选Claude Opus 4.6/4.7。

强审美UI、需要多模态能力,选GPT-4o/5系列。

八、最后说几句真话

DeepSeek V4不是全面碾压的六边形战士。

它在编程和复杂推理上建立了优势,但在最广泛的通识知识上与最强闭源模型仍有微小差距。

多模态能力的缺失,让它在视觉相关场景直接出局。

但它在正确的时间点,解决了一个正确的痛点。

让百万级长上下文从昂贵的演示功能,变成了可大规模商业化的基础设施。

这才是V4的真正价值。

它不是来跟GPT-4o打架的。

它是来重新定义长文本处理这件事的。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 6:44:23

【行情复盘】2026年5月12日(周二)

【行情复盘】2026年5月12日(周二)生成时间:2026-05-12 20:30 | 数据来源:金融市场数据 核心关注:市场整体调整,上证失守4220,量能萎缩,情绪降温一、今日核心结论总结一句话&#xff…

作者头像 李华
网站建设 2026/5/13 6:41:56

实战解析:如何彻底卸载Windows Defender防病毒软件

实战解析:如何彻底卸载Windows Defender防病毒软件 【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://gitcode.com/gh_mirrors/wi/win…

作者头像 李华
网站建设 2026/5/13 6:40:51

AI原生可编辑PPT生成:从SVG到DrawingML的技术实现与应用

1. 项目概述:当AI遇上PPT,一场生产力的革命 作为一名在内容创作和项目管理领域摸爬滚打了十多年的老手,我深知制作一份专业演示文稿的痛。从构思框架、搜集素材、设计排版到反复修改,一套PPT下来,少则半天&#xff0c…

作者头像 李华
网站建设 2026/5/13 6:38:50

从AI概念到落地:传统AI与生成式AI的技术分野与实战选型

1. 从“谈AI色变”到“用AI解题”:我们到底在讨论什么?如果你最近两年没在火星上度假,那你肯定被“AI”这个词全方位轰炸过。从科技媒体的头条,到投资机构的报告,再到你手机里突然冒出的各种“智能”功能,A…

作者头像 李华
网站建设 2026/5/13 6:36:04

基于Helm Chart在Kubernetes中部署docker-mailserver邮件服务器

1. 项目概述与核心价值最近在折腾自建邮件服务器,发现了一个宝藏项目:docker-mailserver。它把邮件服务里那些复杂的组件,比如 Postfix、Dovecot、SpamAssassin、ClamAV 这些,全都打包进了一个 Docker 镜像里,开箱即用…

作者头像 李华
网站建设 2026/5/13 6:35:06

维他动力获5亿Pre-A轮启动人形研发;优必选与日立达成合作人形机器人赋能制造; 前小米高管创业工业通用具身大脑小雨智造获B+轮融资

1. 维他动力获5亿Pre-A轮启动人形研发牛喀网获悉,Vbot维他动力正式完成近5亿元Pre-A轮融资,创下当前消费级具身智能领域的最大单笔融资纪录,本轮由东方嘉富、华泰紫金、复星锐正联合领投,上汽旗下尚颀资本等机构参投。技术层面&am…

作者头像 李华