news 2026/3/6 10:38:23

学习周报三十三

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
学习周报三十三

摘要

本周深入研究了DeepSeek-OCR模型的演进,重点分析了从V1到V2版本的核心架构变革。V1模型采用传统ViT架构(SAM+Conv+CLIP),按固定空间顺序输出视觉特征,在复杂文档解析中存在语义顺序被打乱的问题。V2模型创新性地将编码器后半部分的CLIP替换为小型LLM(Qwen2-0.5B),引入“视觉因果流”机制,通过可学习的“因果流查询Tokens”动态决定信息提取顺序,实现了从“物理坐标顺序”到“语义逻辑顺序”的根本转变,使模型能像人类一样理解复杂文档的排版结构。

Abstract

This week focused on the evolution of the DeepSeek-OCR model, with in-depth analysis of the core architectural transformation from V1 to V2. The V1 model employed a traditional ViT architecture (SAM+Conv+CLIP) that outputs visual features in fixed spatial order, leading to disrupted semantic sequencing when parsing complex documents. The V2 model innovatively replaced the CLIP component in the latter half of the encoder with a small LLM (Qwen2-0.5B), introducing a “visual causal flow” mechanism. Through learnable “causal flow query tokens,” it dynamically determines information extraction order, achieving a fundamental shift from “physical coordinate order” to “semantic logical order,” enabling the model to understand complex document layouts similarly to humans.

1、DeepSeek-OCR-2 模型

之前学习了DeepSeekOCR模型,一个重要的启发是:它验证了图片是文本的高效压缩格式,用几百个 token 就能压进上千字的文本。

1.1 V1的问题

从 DeepSeek-OCR V1 到 V2,最关键的叙事转变是从 物理压缩(Compression) 转向了 逻辑感知(Reasoning/Flow)。而这个转变最主要的动机在于:V1 的编码器,沿用了传统的 ViT 那套架构,具体来说,是 SAM + Conv + CLIP 的组合。

这个架构看上去分工明确,很合理,它有什么问题呢?主要在于,传统的做法,CLIP 这步输出通常是对应空间位置的特征序列(Patch Tokens),也就是说,当把这些特征喂给 LLM 时,通常是按照固定的空间顺序(光栅扫描) 拉直的,通俗地说就是从左上角一行一行死板地扫到右下角。但是,对于排版复杂一点的文档(比如表格、多栏文本),这种「从左上角到右下角」的物理顺序,往往打乱了原本的语义顺序。这让后面的 LLM 解码器理解起来非常费劲。我们人类是怎么看这种复杂排版的文章的呢?举个例子,一篇双栏的学术论文,你会先看大标题,然后看左栏的第一段,读完左栏再跳到右栏。你的视线是跳跃的,但这种跳跃是符合语义逻辑的。所以,V2 的作者提出:能不能让视觉编码器像人眼一样,不按死板的坐标顺序,而是按照内容的逻辑顺序来输出视觉特征?他们把这种能力称为 视觉因果流(Visual Causal Flow)。

1.2 改动:把 Encoder 换成 LLM

上面是 V2 的架构图,和 V1 相同的部分在于:依然保留了 SAM + Conv 做前端感知(也就是编码器的前半部分)解码器部分仍然是一个 LLM(DeepSeek-3B)主要的变动在于编码器的后端部分,把之前的 CLIP 换成了一个小巧的 LLM(Qwen2-0.5B)。也就是说,作者把这个编码器设计成了一个混合体,处理两种 Token:
视觉 Tokens: 代表图片原本的信息。
因果流查询 Tokens: 这是一组可学习的参数,它们负责「提取」并「排序」视觉信息。

1.3 为什么要用 LLM 做视觉编码器呢?

这个设计相当于引入了两个级联的因果推理机制:第一级(Encoder 内部): 负责「排版推理」。它不生成文字,只负责把视觉信息按阅读逻辑排好队。每一个 Query 在生成时,不仅看着原图(Visual Tokens),还看着前面的 Query。这迫使模型学习「根据上文逻辑,下一眼该看图片的哪里」。第二级(Decoder LLM): 负责「内容推理」。把排好队的特征翻译成文字。这种设计让解码器 LLM(依然是那个 DeepSeek3B-MoE)的工作轻松了太多。这就像模型在输出视觉 token 之前,已经在内部做了一次 「隐式的思维链」,把乱序的空间像素,梳理成了有序的语义流。以前的模型是「空间坐标」决定顺序,DeepSeek-OCR 2 是「语义逻辑」决定顺序。

总结

本周通过对DeepSeek-OCR V1与V2模型的对比研究,深入理解了多模态文档理解模型从“感知”到“理解”的关键跃迁。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/4 1:02:08

SpringBoot4.0+JDK25+GraalVM:云原生新纪元

好的,这是一个结合了 Spring Boot 4.0(假设版本)、未来的 JDK 25 以及 GraalVM 的前沿技术组合,代表了 Java 云原生应用的演进方向。让我们逐步分析其关键特性和架构优势: 1. Spring Boot 4.0:应用框架的进…

作者头像 李华
网站建设 2026/3/5 7:30:07

用Python实现第一个量子机器学习模型完整教程:Qiskit与TensorFlow集成

——手把手代码教学与常见问题解决方案 作者:DREAMVFIA UNION 发布日期:2026年2月1日 版权:© 2026 DREAMVFIA UNION -------------------------------------------------- 目录 1. 第一章:引言——为什么学习量子机器学习 2. 第二章:量子计算基础回顾 3. 第三章…

作者头像 李华
网站建设 2026/2/27 6:18:46

U654615 比特聚集(bit)补题报告

先看题目:题目分析我们有一个长度为 的二进制字符串 ,包含字符 0 和 1,至少有一个 1。 可以交换相邻字符,每次交换算一次操作。 目标:让所有 1 连续排列(形成一段连续的 1)。 求最少操作次数思…

作者头像 李华
网站建设 2026/3/4 4:06:31

AI大模型基于LangChain 进行RAG与Agent智能体开发

大模型,英文名叫Large Model,大型模型。早期的时候,也叫Foundation Model,基础模型。 大模型是一个简称,完整的叫法,应该是“人工智能预训练大模型”。预训练,是一项技术,我们后面再…

作者头像 李华
网站建设 2026/3/1 18:25:09

开题报告-基于BS的在线电影视频播放系统的设计与实现

目录 研究背景与意义系统核心功能技术选型创新点设计预期成果应用价值 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 研究背景与意义 在线电影视频播放系统基于B/S架构(Browser/Server&…

作者头像 李华
网站建设 2026/3/4 16:32:45

【课程设计/毕业设计】基于SSM的疫情健康上报管理系统每日体温填报 异常症状上报(咳嗽、发热等) 数据可视化【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华