news 2026/3/25 18:57:02

今日,DeepSeek再次“拆掉重做”,开源架构炸场:OCR 2只是起点,这次要重构AI的“眼睛”和“大脑”?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
今日,DeepSeek再次“拆掉重做”,开源架构炸场:OCR 2只是起点,这次要重构AI的“眼睛”和“大脑”?

就在今年十月,DeepSeek 放出其全新的 DeepSeek-OCR 模型时,业内还在消化它在文档解析上带来的震动。没想到,短短时间,他们又抛出了一篇重磅论文——DeepSeek-OCR 2。而这次,团队直接对视觉编码的“心脏”动了手术。


一、视觉编码,困在“固定扫描”里太久了

不知道你有没有想过,AI 看一张图,和我们的“看”究竟差在哪?现有的视觉语言模型,大多遵循一种近乎刻板的流程:把图像切割成小块,然后强制按“从左到右、从上到下”的网格顺序排列,打上固定的位置编码,再塞给语言模型去理解。

这像不像在要求一个人读书时,眼睛必须机械地逐行扫描,不准跳标题、不准瞥图表、不准回头看注释?可我们真实的阅读,视线明明是跟着语义走的——先被醒目的标题吸引,再顺着图表趋势找到关键数据,最后才可能扫一眼边角的注释说明。这种灵活、有逻辑的“视觉因果流”,恰恰是过去模型缺失的。

DeepSeek-OCR 2 的破局点,在图1里显得颇为直观:他们干脆扔掉了传统的 CLIP 视觉编码器,转而采用了一种类似大语言模型(LLM)的架构。关键在于那个定制的注意力掩码,它让视觉编码过程突然“活”了过来,有了动态推理的可能。


二、让编码器学会“有逻辑地看”

团队将这个新核心称为 DeepEncoder V2。它的设计目标很明确:把视觉编码从“固定扫描”变成“语义推理”。怎么做到的?靠的是几个环环相扣的巧思。

首先,用紧凑的 LLM 风格架构替换 CLIP,等于是为视觉模块注入了语言模型擅长的因果推理能力。接着,他们设计了一套混合注意力机制:视觉标记本身保留双向注意力,以维持对图像全局的感知;同时,引入一组全新的“因果流查询标记”,这些标记之间采用严格的因果注意力。这就好比一边感知整幅画面的存在,一边让一条独立的“思维线”按照逻辑顺序梳理重点。

更巧妙的是,视觉标记与因果查询标记一一对应,这为模拟人类的“视觉回视”——即回头看某个重点区域——留足了空间。最终,只有那些经过语义重排序的“因果查询标记”会被传递给后面的 LLM 解码器。换言之,模型后续理解的,已经是一个按意义重新排列过的视觉故事了。

这一设计灵感并非凭空而来。图2展示了相关工作中的两种“并行化查询”范式,它们启发了DeepSeek团队。


三、两级推理,拆解二维理解的难题

如果你细看,会发现 DeepSeek-OCR 2 实际上构建了一个两级因果推理的管道。第一级在编码器内部,通过可学习的查询标记对视觉信息进行初次重排序;第二级则在 LLM 解码器中,对这个排好序的序列进行自回归的深度推理。

这招其实很聪明。直接将二维空间关系建模透彻非常困难,但他们把问题分解了:先通过一级推理将二维布局转化为一个合乎语义的一维序列,再交给语言模型做它最擅长的序列推理。这或许算不上终极答案,但无疑是通向真正二维视觉理解的一条切实、新颖的路径。


四、效果如何?数据自己会说话

在权威的文档解析基准 OmniDocBench v1.5 上,DeepSeek-OCR 2 交出的成绩单相当亮眼:整体性能 91.09%,比前代提升了 3.73 个百分点。更值得玩味的是,它达成这个效果所用的视觉标记上限仅有 1120 个,是同类模型里最“节俭”的。

衡量语义排序能力的“阅读顺序编辑距离”指标,从 0.085 显著降到了 0.057。这说明,模型输出的文本顺序,确实更贴近人类理解的逻辑了。在实际应用中,这种进步直接体现为重复率的下降——处理在线用户日志图像时,重复率从 6.25% 降到了 4.17%;处理 PDF 数据时,也从 3.69% 降至 2.88%。看来,逻辑理解能力强了,那种机械重复的废话自然就少了。


五、不止于文档:一个统一编码器的野望

在我看来,DeepEncoder V2 的潜力恐怕不止于解读文档。论文里已经隐约指出了更大的图景:它有望演变成一个统一的全模态编码器。

想象一下,同一个编码器骨干,通过共享的注意力机制和前馈网络,配合上针对不同模态(文本、语音、图像、视频)训练的可学习查询嵌入,就能处理各式各样的信息。这为构建“一个模型,通吃所有模态”的基础模型,提供了一种新鲜的架构思路。多模态融合或许不必再那么“拼凑”,而是在底层就能实现更统一的语义理解。


六、这会为机器人装上“会思考的眼睛”吗?

DeepSeek-OCR 2 所强调的“视觉因果流”,本质上是在模仿人类视觉感知中的因果机制。这个方向一旦走通,或许会悄然改变另一个领域——具身智能,也就是机器人。

现在的机器人视觉,多数还是“扫描-识别”的被动模式,缺少对场景的因果推断和基于语义的注意力分配。如果能把 DeepEncoder V2 这种因果推理能力嵌入机器人的视觉系统,会发生什么?

环境理解可能从静态的“是什么”转向动态的“为什么和接下来怎样”;机器人的“视线”能够像人一样,根据任务逻辑主动聚焦关键区域,而不是平均用力地扫描全场;视觉信息与语言指令、动作规划,也有望在同一个因果推理框架下无缝协调。到那时,机器人的“眼睛”或许就不再只是传感器,而是一个初具推理能力的“感知器官”了。

一些耐人寻味的细节

技术论文里总藏着一些体现工程智慧的细节。比如,DeepSeek-OCR 2 采用了多裁剪策略:用 1024×1024 的分辨率处理全局视图,对应 256 个查询嵌入;用 768×768 的分辨率分析局部细节,共享 144 个查询嵌入。这显然是在计算效率和细粒度感知之间做的精明权衡。

作者们也坦诚,若要完全实现人类那种多次复查、多跳式的重排序能力,可能需要比原始视觉标记长得多的因果流标记序列。这无疑意味着,目前的架构依然留白了巨大的优化与探索空间。


结语

从机械的固定扫描,到灵活的语义推理,DeepSeek-OCR 2 带来的不仅仅是几个百分点的性能提升。它更像是一次视觉编码范式上的“松动”。当 AI 开始尝试“有逻辑地看”世界时,我们距离那种真正理解眼前一切的视觉智能,似乎又近了一小步——而这一小步,往往也是最难的那一步。

项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2

论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/16 0:43:30

水面船舶固定时间编队控制:领导跟随算法的实践与应用

水面船舶固定时间领导跟随编队控制;固定时间编队;领导跟随算法 水面上的船队编队控制就像一群默契的舞者,领航船带着小弟们在波浪里走出精准队形。固定时间控制的魅力在于,不管船只在哪开始瞎晃悠,编队成型的时间上限…

作者头像 李华
网站建设 2026/3/23 20:06:30

宇树机器狗GO2在gazebo驱动仿真

一、一键安装roswget http://fishros.com/install -O fishros && . fishros二、安装GO2相关项目*构建项目空间mkdir go2_fz_ws cd go2_fz_ws mkdir src cd src* 安装项目git clone https://github.com/unitreerobotics/unitree_legged_sdk.gitcd unitree_legged_sdk/ m…

作者头像 李华
网站建设 2026/3/15 23:27:42

社会网络仿真软件:NetLogo_(4).NetLogo编程基础

NetLogo编程基础 在这一节中,我们将详细介绍NetLogo编程的基础知识,包括NetLogo的基本概念、环境设置、编程语言特性以及如何创建和运行简单的模型。通过这一节的学习,您将能够掌握NetLogo的基本编程技巧,为后续的复杂模型开发打下…

作者头像 李华
网站建设 2026/3/23 10:30:36

社会网络仿真软件:NetLogo_(6).数据导入与导出

数据导入与导出 在社会网络仿真软件NetLogo中,数据导入与导出是两个非常重要的功能,它们使得仿真模型能够与外部数据进行交互,从而增强模型的灵活性和实用性。通过数据导入,用户可以从外部文件中加载数据,用于初始化模…

作者头像 李华
网站建设 2026/3/19 10:34:57

【Matlab】MATLAB矩阵子矩阵索引详解:从语法案例到分块应用

MATLAB矩阵子矩阵索引详解:从语法案例到分块应用 在MATLAB矩阵操作体系中,子矩阵索引是比整行/列索引更灵活的核心技能,能够精准提取矩阵中任意连续或离散的子区域数据。无论是数据分块处理、局部特征提取,还是复杂数值计算中的区域运算,子矩阵索引都发挥着不可替代的作用…

作者头像 李华
网站建设 2026/3/17 10:21:49

Clawedbot 完整对接飞书教程 手把手搭建你的专属 AI 助手

Clawedbot 完整对接飞书教程 手把手搭建你的专属 AI 助手 注意本教程在 Linux 系统下进行 Clawdbot 由于 Claude 的版权问题,已更名为 Moltbot,因此本教程基于最新版本编写。下面进入安装流程 首先准备一台闲置的云服务器或 VPS(推荐使用香港…

作者头像 李华