news 2026/4/30 20:56:39

不仅是开源!DeepSeek OCR 2 来了,这才是真正的“降维打击”!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
不仅是开源!DeepSeek OCR 2 来了,这才是真正的“降维打击”!

DeepSeek 刚刚开源了其 OCR 模型的迭代版本——DeepSeek-OCR 2

与上一代产品相比,DeepSeek-OCR 2 并非仅在参数规模或数据量上进行堆叠,而是对视觉编码器的底层逻辑进行了重构。该研究由魏浩然、孙耀峰、李宇琨三位作者完成,核心突破在于引入了DeepEncoder V2,将视觉信息的处理方式从传统的“固定栅格扫描”转变为“基于语义的因果推理”。

以下是对该模型架构、核心机制及评估结果的某些技术层面的解析。

1. 核心架构演进:从固定扫描到因果流

传统的视觉语言模型(VLM)通常采用光栅扫描顺序(raster-scan order),即从左上到右下机械地处理图像 Patch。这种方式在处理复杂排版(如多栏文档、报表、公式混排)时,往往难以捕捉内容之间真实的逻辑关系。

DeepSeek-OCR 2 延续了前代的 Encoder-Decoder 整体框架(如图 3 所示),但对 Encoder 进行了关键性的替换。

模型保留了 3B 参数量的 Mixture-of-Experts (MoE) 解码器,但在编码端,DeepEncoder V2 放弃了前代基于 CLIP 的编码器方案,转而采用了一个轻量级的语言模型(Qwen2-500M)作为视觉编码的主干。

这一设计的核心逻辑在于构建一个两级级联的因果推理结构(Two-cascaded 1D causal reasoning structure):

  1. 第一级(Encoder):通过可学习的查询(Query)对视觉 Token 进行语义层面的重排;
  2. 第二级(Decoder):基于重排后的有序序列执行自回归文本生成。

2. DeepEncoder V2 的技术细节

DeepEncoder V2 的设计是为了在视觉编码阶段引入因果推理能力。其工作流包含三个关键组件:

2.1 视觉分词器 (Vision Tokenizer)

继承自 DeepEncoder,该组件由一个 80M 参数的 SAM-base 和两层卷积层组成。它负责将图像离散化,但在 V2 版本中,最终输出维度被调整为 896,以匹配后续架构。

2.2 类 LLM 视觉编码器与双流注意力

这是本次更新的核心。DeepSeek 将原有的 CLIP ViT 替换为 Qwen2-0.5B-base。在这个架构中,视觉 Token 和新增的「因果流查询」(Causal Flow Queries)被拼接处理,并应用了独特的双流注意力机制

为了控制信息流向,DeepSeek 设计了专门的注意力掩码(Attention Mask),如图 5 所示:

该注意力掩码矩阵M MM的数学定义如下(公式 1):

M = [ 1 m × m 0 m × n 1 n × m LowerTri ( n ) ] , where n = m M = \begin{bmatrix} \mathbf{1}_{m \times m} & \mathbf{0}_{m \times n} \\ \mathbf{1}_{n \times m} & \text{LowerTri}(n) \end{bmatrix}, \quad \text{where } n = mM=[1m×m1n×m0m×nLowerTri(n)],wheren=m

  • 左侧区域 (1 m × m \mathbf{1}_{m \times m}1m×m):原始视觉 Token 采用双向注意力(Bidirectional),保留了类似 ViT 的全局建模能力,确保视觉特征的完整性。
  • 右侧区域 (LowerTri ( n ) \text{LowerTri}(n)LowerTri(n)):因果流查询 Token 采用下三角掩码(Causal/Triangular),即每个 Query 只能关注其之前的 Query 和所有的视觉 Token。

这种设计使得 Encoder 能够根据图像内容的语义逻辑动态地“重排”视觉信息,而非受限于空间位置。最终,只有经过语义重排的因果查询 Token 会被输入到解码器中。

整个模型的前向传播过程可形式化为(公式 2):

O = D ( Π Q ( T L ( E ( I ) ⊕ Q 0 ; M ) ) ) O = D \left( \Pi_Q \left( T_L (E(I) \oplus Q_0; M) \right) \right)O=D(ΠQ(TL(E(I)Q0;M)))

其中,E ( I ) E(I)E(I)为视觉分词输出,Q 0 Q_0Q0为可学习查询,T L T_LTL为 Encoder 的 Transformer 层,M MM为上述掩码,Π Q \Pi_QΠQ表示仅提取后n nn个查询 Token,D DD为最终的语言解码器。

3. 数据效率与性能评估

DeepSeek-OCR 2 在保持极高压缩率的同时实现了性能突破。模型仅需256 到 1120 个视觉 Token即可覆盖复杂的文档页面。这一区间下限对应 1024x1024 分辨率的 Global View,上限对应 Gemini-3 Pro 的视觉 Token 预算,极大地降低了下游 LLM 的计算开销。

OmniDocBench v1.5评测中,DeepSeek-OCR 2 表现如下(表 1):

  • 综合得分:达到 91.09%,较基于 CLIP 的前代模型提升了 3.73%。
  • 阅读顺序(R-order):编辑距离(Edit Distance, ED)从 0.085 显著降至 0.057。

R-order 指标的显著优化,直接验证了 DeepEncoder V2 在视觉逻辑重排方面的有效性:模型不再是死板的复印机,而是具备了类似人类阅读的自然扫描逻辑。

4. 生产环境表现与局限

在实际应用场景中(在线 OCR 服务与 PDF 数据清洗),由于缺乏标准答案,团队采用“重复率”(Repetition Rate)作为质量代理指标。数据显示,DeepSeek-OCR 2 将在线用户日志图像的重复率从 6.25% 降低到了 4.17%,证明了其在长文本和复杂版面下的稳定性。

改进空间:
尽管整体性能优异,但在报纸类(Newspaper)文档上,DeepSeek-OCR 2 的文本识别编辑距离仍超过 0.13。团队分析认为,这是由于视觉 Token 上限(1120)对于极高密度的报纸文本仍显不足,且训练数据中报纸类样本相对匮乏(仅约 25万条)所致。

5. 总结

DeepSeek-OCR 2 的发布标志着视觉编码从单纯的“特征提取”向“语义推理”的转变。通过将 LLM 架构引入 Vision Encoder 并结合因果注意力机制,DeepSeek 探索出了一条在二维空间结构与一维因果语言建模之间搭建桥梁的技术路径。这不仅优化了 OCR 任务,也为未来构建处理音频、视频等全模态(Omni-modal)数据的统一编码器提供了验证。

  • 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
  • 论文全文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
  • 模型权重:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/30 0:35:01

MFC扩展库BCGControlBar Pro v37.2新版亮点:控件功能进一步升级

BCGControlBar 库拥有500多个经过全面设计、测试和充分记录的MFC扩展类。 我们的组件可以轻松地集成到您的应用程序中,并为您节省数百个开发和调试时间。 BCGControlBar专业版 v37.2已全新发布了,新版本实现一个新的Visual Studio 2026样式的可视化管理…

作者头像 李华
网站建设 2026/4/23 13:35:13

基于(CNN-RNN)的时间序列预测程序,预测精度很高。 可用于做风电功率预测,电力负荷预测等...

基于(CNN-RNN)的时间序列预测程序,预测精度很高。 可用于做风电功率预测,电力负荷预测等等 标记注释清楚,可直接换数据运行。 代码实现训练与测试精度分析。时间序列预测在能源领域一直是一个热门话题。无论是风电功率…

作者头像 李华
网站建设 2026/4/14 12:57:47

FLAC3D大坝渗流模拟分析:从水头差到渗流路径的可视化

Flac3d大坝渗流模拟,flac3d大坝,flac3d渗流 大坝 在坝体两侧设置不同的水头高度,研究大坝内部的渗流情况,本命令流只进行渗流计算,没有进行力学计算,非流固耦合工况。 图一是渗流计算到稳态情况下的孔隙水…

作者头像 李华
网站建设 2026/4/21 13:04:11

探秘虚拟同步机孤岛模型:从代码到应用

vsg虚拟同步机孤岛模型,2018b版本,在微电网研究领域,虚拟同步机(VSG)技术正逐渐成为研究热点。它通过模拟同步发电机的特性,使逆变器能够像传统发电机一样参与电网调频调压,从而提升微电网的稳定…

作者头像 李华
网站建设 2026/4/25 8:05:09

西门子Smart200 PLC恒压供水程序,触摸屏采用WinCc flexible SMART画面

西门子Smart200 PLC恒压供水程序,触摸屏采用WinCc flexible SMART画面 程序1西门子smart200 和2个台达变频器Modbus RTU 通讯,原创真实项目,配套IO表/详细注释/材料清单/CAD电气图纸等,带西门子触摸屏程序 程序2同样200SMART控制两…

作者头像 李华