智谱GLM-OCR，0.9B开源即巅峰，复杂文档精准解析-开发者社区

GLM-OCR仅0.9B参数的轻量级身躯，便以94.6分登顶OmniDocBench V1.5，并在公式识别、表格识别、信息抽取的多项主流基准中均取得SOTA表现。

刚刚，智谱发布并开源GLM-OCR。

GLM-OCR仅0.9B参数的轻量级身躯，便以94.6分登顶OmniDocBench V1.5，并在公式识别、表格识别、信息抽取的多项主流基准中均取得SOTA表现。

通过多Tokens预测损失与深度强化学习技术，以“小尺寸、高精度”，为文档解析、复杂表格还原及手写体识别等树立新标杆。

小参数解决视觉感知难题

GLM-OCR用精密的模型设计与针对性的场景优化，在特定领域实现超越巨型模型的效能。表现优于多款OCR专项模型，性能直逼Gemini-3-Pro这种顶尖的闭源模型。

GLM-OCR针对真实业务中的六大核心场景进行了深度打磨，在代码文档的解析中，它能精准保留缩进与语法结构；在真实场景的表格处理中，它能看穿合并单元格的复杂逻辑；面对书写习惯各异的手写体，它展现出了惊人的鲁棒性；即使是多语言混排、印章遮挡文字、各类票据提取等高难度任务，GLM-OCR也依然能保持极高的准确率。

在实际应用案例中，GLM-OCR展现出了令人印象深刻的适应能力。

能够精准识别并还原手写体、印章内容、代码段落等，这对于教育行业的试卷批改、科研领域的文献整理以及办公场景下的档案数字化都有重要意义。

我们来看一个手写公式识别的案例，数学公式通常包含复杂的上下标、特殊符号以及空间结构，传统OCR往往将其识别为乱码，GLM-OCR却能精准还原每一个符号及其位置关系，将其转化为可编辑的格式。

印章识别是另一个极具挑战的场景，印章通常覆盖在文字之上，且包含圆弧形文字排列，GLM-OCR不仅能识别印章内的文字，还能有效分离印章与背景文字的重叠干扰，确保关键信息的准确提取。

对于程序员和技术文档编写者来说，代码识别的准确性至关重要，代码中的标点符号、缩进层级一旦出错，代码就会失效，GLM-OCR在处理代码截图时，能够像专业的IDE一样，准确还原代码的结构和语法细节。

表格解析一直是OCR领域的难点，尤其是面对合并单元格、多层表头以及跨页表格时，传统方案往往输出一堆错位的文本，GLM-OCR引入了对复杂版式的深度理解，能够精准识别表格结构并直接输出HTML代码。

用户无需进行二次制表，识别结果可以直接嵌入网页展示或导入数据库进行后续处理，这种“所见即所得”的能力大幅提升了数据录入与转换的效率。

在信息结构化提取方面，GLM-OCR展示了它作为“数据解析器”的强大实力，它不仅能读出文字，还能理解文字背后的业务含义，它可以从各类卡证、票据、表格中智能提取关键字段，并按照用户指定的要求输出标准的JSON格式。

这种能力让它能够无缝对接银行的信贷审核系统、保险公司的理赔流程以及物流行业的单据录入系统，将原本需要人工录入的繁琐工作转化为全自动化的数据流。

我们通过一个具体的报关单案例来感受这种能力，输入一张包含复杂排版、中英文混排、手写签名及盖章的“中华人民共和国海关出口货物报关单”图片。

用户通过Prompt（提示词）要求模型按照特定的JSON格式提取信息，包括发货人、收货人、运输方式、商品信息列表等极度细节的内容。

GLM-OCR给出的输出不仅准确填入了所有字段，还完美处理了嵌套结构，例如在“商品信息”列表中，它准确识别了商品的项号、编号、名称及数量等细节，并正确对应了“生产销售单位”的名称与信用代码。

高精度的识别能力和规整的输出格式，对于检索增强生成（RAG）系统而言，无异于提供了高质量的燃料，只有当底层的文档解析足够准确，上层的AI应用才能基于可靠的数据生成有价值的回答。

视觉编码与语言解码的精密协作

GLM-OCR之所以能在0.9B的参数规模下实现如此惊人的性能，归功于其系统性的多模态模型结构设计，它摒弃了简单的拼接策略，而是精心设计了“视觉编码器-连接层-语言解码器”的三级火箭架构。

这一架构继承自GLM-V系列，经过针对性的瘦身与强化，使其在OCR任务上达到了效能的巅峰。

视觉侧的核心是自研的CogViT视觉编码器，参数量约为400M，这个编码器并不只是简单地看图，它在数十亿级的高质量图文对数据上进行了大规模预训练，并引入了CLIP策略。

为了将CogViT捕捉到的丰富视觉信息高效地传递给语言模型，GLM-OCR设计了一套轻量而高效的连接层结构，融合了SwiGLU机制并引入了4倍下采样策略的精密组件。

SwiGLU作为一种高性能的激活函数，能够增强模型捕捉复杂特征的能力，而4倍下采样策略则像是一个高智能的压缩算法，它能够精准筛选并保留关键的视觉Token，去除冗余信息。

这种设计确保了高密度的语义信息能够被高效地传递至后端的解码器，既保留了图像的细节，又减轻了解码器的计算负担。

模型的大脑部分是GLM-0.5B解码器，这是一个经过深度优化的语言模型，它负责接收经过筛选的视觉信息，并将其翻译成人类可读的文本或结构化代码。

在训练策略上，GLM-OCR率先将多Tokens预测损失（MTP）引入了OCR模型的训练过程，传统的训练方式往往是预测下一个Token，而MTP则要求模型同时预测未来的多个Token。

这显著增强了损失信号的密度，迫使模型在学习过程中建立更长程的上下文依赖，从而提升了学习效率。

除了基础训练，GLM-OCR还通过持续且稳定的全任务强化学习（RL）训练进行了进一步打磨，强化学习让模型在各种复杂的文档场景下不断试错并获得反馈，从而显著提升了模型的鲁棒性。

GLM-OCR不仅在标准数据集上表现出色，在面对真实世界中那些光照不均、折痕严重、字迹潦草的文档时，依然能保持稳定的识别精度。

在整体系统层面，GLM-OCR采用了“版面分析→并行识别”的两阶段技术范式。

版面分析模块基于PP-DocLayout-V3实现，它像是一个经验丰富的排版编辑，能够迅速分析出文档的结构，区分出段落、表格、图片和标题。

先分析后识别的流程，确保了面对版式多样、结构复杂的文档时，模型不会迷失方向，能够实现稳定、高质量且高效率的OCR解析效果。

端侧与高并发部署

在追求高精度的同时，GLM-OCR并没有牺牲速度与成本，反而通过极致的工程优化，实现“更快、更便宜”。

速度方面，GLM-OCR在相同硬件环境与测试条件下展现出了显著的优势，在单副本、单并发的严格测试中，处理PDF文档的吞吐量达到了惊人的1.86页/秒，处理单纯的图像文件也能达到0.67张/秒。

高效的推理能力，得益于其仅0.9B的参数规模以及对vLLM、SGLang和Ollama等主流推理框架的全面支持。

小参数意味着更低的显存占用和更少的计算量，这使得GLM-OCR非常适合高并发场景，甚至可以直接部署在边缘设备上。

企业无需购买昂贵的集群，利用现有的算力资源即可快速搭建起高性能的OCR服务，显著降低了推理延迟与算力开销。

在价格方面，GLM-OCR更是打破了行业的底价，API调用采取输入输出同价的策略，仅需0.2元/百万Tokens。

这是一个极具破坏力的价格，在这个标准下，用户仅需花费1元人民币，即可处理约2000张A4大小的扫描图片，或者完成200份10页简单排版PDF的解析。

与传统的OCR方案相比，其成本仅为后者的十分之一左右，这种数量级的成本下降，将彻底改变企业数字化转型的成本结构，让大规模的历史档案数字化成为可能。

从高精度的识别能力到灵活的结构化输出，从精密的模型架构到极致的推理效率，GLM-OCR用全方位的技术突破，推动文档智能化处理迈向新台阶。

智谱GLM-OCR，0.9B开源即巅峰，复杂文档精准解析

小参数解决视觉感知难题

视觉编码与语言解码的精密协作

端侧与高并发部署

正值负值零值（整个正弦波周期）转485/rj45高速采集模块

什么是AIGC检测？一文读懂AI内容识别技术的工作原理

教育平台TinyMCE4处理Word艺术字粘贴变成乱码如何修复？

朝鲜威胁行为体利用虚假招聘面试锁定软件开发者

模板编程——std::is_pointer的分析

亲测好用8个降AIGC网站推荐，千笔帮你轻松降AI率