news 2026/6/26 18:58:34

51c视觉~OCR~合集2

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
51c视觉~OCR~合集2

我自己的原文哦~https://blog.51cto.com/whaosoft143/14456574

一、xxx

....

二、xxx

....

三、LightOnOCR

OCR迎来“闪电时刻”:LightOnOCR-2以1B模型击败9B竞品,开源即达SOTA!

最近,LightOn在文档理解领域推出了名为LightOnOCR-2-1B的全新模型。这个模型仅用10亿的参数量,就在权威的 OCR 评测基准OlmOCR-Bench上取得了当前最佳成绩(SOTA),把一众参数量大它9倍的巨无霸模型甩在了身后。

对开发者来说,好消息是,LightOnOCR-2 已经全面开源,相关的模型、代码、数据集都已上线 Hugging Face,这无疑又为社区贡献了一个强大又高效的生产力工具。

  • 论文标题: LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR
  • 论文地址: https://arxiv.org/abs/2601.14251
  • 项目主页: https://huggingface.co/blog/lightonai/lightonocr-2
  • 代码仓库: https://huggingface.co/collections/lightonai/lightonocr-2
  • 机构: LightOn

告别脆弱的“积木塔”:为什么我们需要端到端OCR?

聊到 LightOnOCR-2 之前,我们得先看看传统OCR技术遇到了什么瓶颈。

长久以来,文档处理就像搭建一个复杂的“积木塔”。我们需要先用一个工具做版面分析,判断哪里是标题、哪里是段落、哪里是表格;再用另一个工具去检测文字的具体位置;然后才是文字识别;最后可能还需要一个模块来恢复正确的阅读顺序。这个过程被称为“多阶段OCR流程”(multi-stage OCR pipelines)。

这种方法的缺点显而易见:

  1. 脆弱:任何一个环节出错,都会影响最终结果。
  2. 昂贵:维护和升级这样一套复杂的系统成本高昂。
  3. 僵化:想让它适应一种新的文档风格(比如一种新的发票版式),往往需要对多个模块进行调整和重新训练,费时费力。

而以 LightOnOCR-2 为代表的端到端(End-to-End)模型,像一个聪明的“全能专家”,直接从原始的文档图片(输入),一步到位地生成结构清晰、顺序正确的文本内容(输出),中间过程全部由模型自己搞定。这种“大力出奇迹”的方式不仅简化了工程,也让模型的优化和迭代变得简单。

1B如何胜过9B?LightOnOCR-2的核心秘籍

LightOnOCR-2 模型可以用“小而美”来形容。

强强联合的模型架构

LightOnOCR-2 的根基是一个经典的“编码器-解码器”架构,但它的组件包括:

  • 视觉编码器 (Vision Encoder):采用了 ​​Mistral-Small-3.1​​ 的预训练权重。这是一个原生支持高分辨率的ViT,能很好地捕捉文档中微小的排版细节,对各种奇形怪状的文档比例都有很好的适应性。
  • 语言解码器 (Language Model Decoder):初始化自 ​​Qwen3​​ 模型。它负责将视觉信息翻译成通顺且结构化的文本。
  • 多模态投影器 (Multimodal Projector):一个简单的双层MLP,作为桥梁,高效地将视觉特征传递给语言解码器。

这种组合拳,相当于站在了巨人的肩膀上,让模型从一开始就具备了强大的视觉理解和语言生成能力。

不止于OCR:新增图像边界框检测

这是 LightOnOCR-2 的一大亮点。除了转录文字,它还能在生成的文本中,用类似 Markdown 的语法 ​​![image](image_N.png)​​ 标记出文档里图片的位置,并给出其精确的边界框坐标(bounding boxes)

上图就是一个很好的例子,左边是原始文档页,右边是模型生成的转录文本渲染后的效果,它不仅识别了所有文字,还准确地“框”出了图片的位置,并将其裁剪了出来。

为了实现这个功能,研究者们在预训练中引入了坐标监督,并利用基于IoU奖励的强化学习(RLVR)对定位能力进行了精细打磨,让模型学会了“指哪打哪”。

“模型合并之道”:任务算术合并

同时做好OCR和图像定位,有时会顾此失彼。为了解决这个问题,研究者用上了一种名为“任务算术合并”(Task-Arithmetic Merging)的技术。

简单来说,他们分别训练了一个专注于OCR的“专家模型”和一个专注于Bbox检测的“专家模型”,然后通过一个简单的线性公式,将两个模型的权重进行“插值融合”。

如上图所示,通过调整混合比例 α,开发者可以自由地在OCR精度和Bbox检测精度之间找到最佳平衡点,甚至创造出一个“双优”的融合模型,整个过程无需额外训练,成本极低。

惊人的性能与效率

LightOnOCR-2 的实验结果相当能打。

OlmOCR-Bench基准上,LightOnOCR-2-1B 的最终得分达到了83.2,超过了此前最强的9B参数模型 Chandra(81.7分),成为了新的榜单冠军。

效率方面在单张NVIDIA H100 GPU上,LightOnOCR-2 的推理速度5.71页/秒,是8B参数的 olmOCR-2 的近1.7倍,是9B参数的 Chandra 的3.3倍以上。

论文展示了无论是处理包含复杂公式的科学论文、版式刁钻的多栏文档,还是陈旧发黄的扫描件,LightOnOCR-2 都表现出了卓越的性能和鲁棒性。

对科学文献的精准识别

轻松应对复杂表格

在老旧扫描件上依然稳健

写在最后

LightOnOCR 出自一家法国公司 LightOn,目前该模型对中日韩等非拉丁语系文字和手写体的支持还有待提高。但其设计思想值得参考。

....

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 3:55:46

AI应用架构师与社会网络AI分析平台的持续进化

元数据框架 标题:AI应用架构师助力社会网络AI分析平台的持续进化关键词:AI应用架构师;社会网络AI分析平台;架构设计;持续进化;数据驱动摘要:本文聚焦于AI应用架构师在社会网络AI分析平台持续进…

作者头像 李华
网站建设 2026/6/25 3:29:11

豆瓣评分上涨!观众喊话:开年好片,后劲太大!

《我的朋友安德烈》绝对是开年最催泪的电影,董子健的导演首秀真是让人惊喜!故事其实不复杂,但就是特别打动人,好多人看完在网上评价说“看哭了”“后劲上头”。它就像一把温柔的钥匙,打开了每个人心里关于童年、家庭、…

作者头像 李华
网站建设 2026/6/19 13:04:22

MBA必看!9个降AI率工具高效推荐

MBA必看!9个降AI率工具高效推荐 AI降重工具:MBA论文的高效护航者 在当今学术研究日益数字化的背景下,MBA学生面对的不仅是复杂的商业案例分析和严谨的逻辑论证,还有AI生成内容(AIGC)带来的查重率压力。随着…

作者头像 李华
网站建设 2026/6/26 5:02:19

人群仿真软件:Pathfinder_(13).更新与版本管理

更新与版本管理 在人群仿真软件的开发和维护过程中,更新与版本管理是非常关键的环节。有效的版本管理可以确保软件的稳定性和可维护性,同时也能帮助开发者追踪和管理软件的演进过程。本节将详细介绍如何在人群仿真软件中进行更新与版本管理,…

作者头像 李华
网站建设 2026/6/23 1:16:37

使用git clone后文件夹空没有内容

当时用git clone之后文件空时没有内容,github上有内容,有clone记录,解决办法。分支错误切换分支就行。1. 查看文件目录下是否有.git目录ls 2. 查看是否有其他的分支git branch -r3. 切换到目标分支就行,一般是master分支git check…

作者头像 李华