DeepSeek V4 正式发布:1.6万亿参数、百万上下文,开源大模型进入新阶段
2026年4月24日,深度求索(DeepSeek)正式发布了新一代旗舰模型DeepSeek-V4,并同步开源模型权重。这是距 V3 发布484天之后的一次重大版本迭代。
和 V3 一样,V4 依然走的是全开源路线。但这一次,DeepSeek 把参数规模、上下文长度、架构设计都推到了一个新的量级上。本文不吹不捧,只把这次更新的真实内容梳理清楚。
这次发布了什么
V4 系列包含两个版本:
| 版本 | 参数量 | 激活参数 | 上下文 |
|---|---|---|---|
| V4-Pro | 1.6 万亿(1.6T) | ~490 亿 | 100万 token |
| V4-Flash | 2840 亿(284B) | 130 亿(13B) | 100万 token |
两者的定位有明确区分:
- V4-Pro:满血版本,面向复杂推理、代码架构、数理等高难度任务
- V4-Flash:轻量版本,主打高吞吐和低价格,适合日常和规模化场景
亮点一:100万 token 上下文成标配
如果说 V3 之前的长上下文还是"高配能力",V4 直接把它变成了标配。
两个版本都原生支持 100万 token(1M)的上下文窗口。这意味着你可以直接把一个大型代码仓库、一部长篇技术文档完整丢给模型处理,不需要做分段切割。
当然,这里需要说明一个实际限制:虽然上下文窗口是100万 token,但模型的实际"有效理解范围"并不等于窗口上限。超长上下文下,模型对开头和结尾内容的关注度通常高于中间部分,这是 Transformer 架构本身的特性,100万窗口解决的是"放得下"的问题,"理解得到位"还取决于后续优化。
亮点二:稀疏注意力机制,让长上下文真正可用
100万 token 上下文如果用传统全注意力机制,计算量和显存开销是天文数字。V4 为此引入了DSA(DeepSeek Sparse Attention)稀疏注意力机制,具体采用了CSA + HCA 混合结构:
CSA(压缩稀疏注意力):将每 m 个 token 的 Key-Value 信息压缩成一个块,用轻量 indexer 计算相关性分数,只在 top-k 压缩块上做精细注意力。适合 token 级别的精确检索。
HCA(深度压缩注意力):更激进地将 128 个 token 压缩成一个块。适合长距离的全局信息汇总。
实测效果:在 100万 token 场景下,V4-Pro 的单 token FLOPs 降至 V3.2 的 27%,KV Cache 压缩到原来的约10%。
这个数字的意义在于——它让百万上下文从"理论上可行"变成了"实际跑得动"。
亮点三:mHC 架构,残差连接的10年来首次升级
这是 V4 技术报告中被讨论最多的创新之一。
自 2016 年 ResNet 提出残差连接(Residual Connection)以来,这个机制一直是深度学习的基础组件,但随着模型越来越深,其信号传递不稳定的问题也逐渐显现。
V4 引入的mHC(流形约束超连接)机制做了这样一件事:将残差流的混合矩阵约束到Birkhoff 多面体的流形上,使矩阵的行列都归一化为1。这个设计带来了两个实际好处:
- 谱范数天然不超过1,为残差传播设置了硬上限,信号传递更稳定
- 乘法封闭性保证堆叠多层(如 V4-Pro 的61层)时依然保持数值稳定
同时,mHC 带来的额外开销被控制在 wall-time 的 6.7% 以内,实际影响很小。
亮点四:预训练数据量翻倍
| 版本 | 预训练数据量 |
|---|---|
| V3 | 14.8T token |
| V4-Flash | 32T token |
| V4-Pro | 33T token |
V4 的预训练数据量较 V3翻了一倍以上。数据量增长带来的直接收益是世界知识的覆盖面扩大。V4-Pro 在各项知识 benchmark 上逼近 Gemini-Pro-3.1,而 V4-Flash 在简单 Agent 任务上与 Pro 版本表现相当。
亮点五:开源权重 + 昇腾适配
V4 延续了 DeepSeek 一贯的开源策略,模型权重以Apache 2.0许可证开源,可商用。
另外值得关注的是:V4 实现了华为昇腾 SuperNode 的首日零日适配。这意味着在国产算力生态中,V4 是目前适配最快的万亿参数级别开源模型。
亮点六:价格,有诚意也有差异
根据官方 API 文档,V4 的完整定价如下(单位:元/百万 tokens):
| 版本 | 缓存命中输入 | 缓存未命中输入 | 输出 |
|---|---|---|---|
| V4-Flash | 0.2 元 | 1 元 | 2 元 |
| V4-Pro | 1 元(限时 0.25 元) | 12 元 | 24 元 |
V4-Flash 的定价确实刷新了性价比认知:0.2 元/百万 token 的输入成本,已经大幅低于市场同类产品。
另外值得注意的是:V4-Pro 目前有限时优惠,缓存命中输入价格降至 0.25 元(原价 1 元),优惠截止至2026年5月5日。优惠期后 V4-Pro 的日常价格并不低,选择时需要结合实际需求。
旧接口
deepseek-chat与deepseek-reasoner将于2026年7月24日停用,届时将统一路由至 V4 系列。
性能表现:什么水平
V4-Pro 在几个关键 benchmark 上的表现:
| 基准 | V4-Pro 成绩 | 对比 |
|---|---|---|
| SWE-bench | 80.6% | Agent 代码能力,开源模型榜首 |
| 数理推理 | 超越所有已公开评测的开源模型 | 逼近顶级闭源 |
| 世界知识 | 逼近 Gemini-Pro-3.1 | 仍有差距 |
需要注意的是:benchmark 成绩反映的是特定测试集上的表现,与实际使用体验不一定完全对应。模型在真实场景中的效果,还取决于任务类型、提示词设计、具体场景匹配度等多种因素。
两个版本怎么选
根据目前的官方信息,建议如下:
选 V4-Pro:
- 代码架构设计、SWE 类任务
- 多步复杂推理
- 需要最强数理和代码能力
- 替代 Claude Sonnet / GPT-5 类的复杂任务
选 V4-Flash:
- 日常对话、文档总结
- 高并发、高吞吐场景
- 规则明确的自动化任务
- 成本敏感的规模化部署
几点客观说明
写这篇文章的过程中,有几个点我特意想提一下:
1. 关于参数规模
1.6万亿参数听起来很大,但这是总参数量。V4 采用了 MoE(混合专家)架构,每次推理只激活约490亿参数(V4-Pro)。所以实际推理开销远没有1.6T看起来那么夸张。
2. 关于 benchmark 成绩
这些数字是官方公布的,各家厂商的 benchmark 成绩往往经过精心配比和测试集选择,不同模型之间直接对比存在口径差异。参考可以,别当成绝对标尺。
3. 关于长上下文的真实体验
100万 token 窗口是技术突破,但实际使用中,"能放进去"和"理解得好"是两件事。模型在超长上下文中的中间位置往往存在注意力衰减,这是 Transformer 架构的特性,不是 V4 独有的问题。
4. 关于开源的持续性
DeepSeek 之前的模型也有开源,但社区维护、更新节奏、长期支持等都需要观察。开源模型的价值不只是发布那一刻,取决于后续社区生态的跟进。
总结
DeepSeek V4 是一次实打实的升级——参数规模更大、上下文更长、架构有新意、价格有诚意。对于开源社区来说,V4 的发布确实是这个春天值得关注的一件事。
但作为从业者,我更愿意保持一个客观的态度:大模型的能力是真实的进步,但落地效果因场景而异,是否适合自己,还是那句话:看任务,看场景,看成本。
参考来源
- DeepSeek 官方 API 文档:platform.deepseek.com
- DeepSeek 开放平台(定价):platform.deepseek.com/pricing
- HuggingFace:huggingface.co/deepseek-ai/DeepSeek-V4-Flash
- DeepSeek 公众号,发布于 2026年4月24日
- 36氪《DeepSeek 正式发布 V4 API:Flash/Pro 双版本齐发,百万上下文成标配》(2026年4月24日)
原创内容,转载需授权。