news 2026/4/1 6:57:23

智谱开源GLM-OCR:0.9B小模型在复杂文档处理登顶SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
智谱开源GLM-OCR:0.9B小模型在复杂文档处理登顶SOTA

智谱AI正式开源发布GLM-OCR,这款参数量仅 0.9B 的模型以 “小尺寸、高精度” 的特性打破了行业记录。在权威榜单 OmniDocBench V1.5 中,它以 94.6 的高分超越多款同类模型,展现了在手写公式、多语混排及印章识别等复杂文档场景下的统治级能力,为行业提供了高效的专业级OCR解决方案。

核心能力与技术架构

GLM-OCR 采用独特的 “编码器 - 解码器” 架构,通过极致的参数效率实现了性能与成本的双重突破。

关键技术指标

轻量部署:总参数量仅 0.9B,完美支持 vLLM、SGLang 和 Ollama 等主流推理框架,大幅降低了部署门槛。

SOTA性能:在 OmniDocBench V1.5 综合评测中斩获 94.6 分,在文本识别、公式解析、表格还原及信息抽取四大维度均表现优异,性能接近 Gemini-3-Pro(据公开报道)。

极致速度:在同等硬件条件下(单副本单并发),PDF 文档处理吞吐量达 1.86 页/秒,图片处理达 0.67 张/秒。

颠覆性成本:API 调用输入输出同价,仅需 0.2 元/百万 Tokens。1 元人民币即可处理约 2000 张 A4 扫描件或 200 份 10 页 PDF,成本仅为传统 OCR 方案的 1/10。

典型场景与落地效果

针对传统 OCR 难以处理的 “硬骨头”,GLM-OCR 进行了深度优化,在多种极端场景下实现了突破。

手写体与公式: 模型在复杂的数学公式识别及多语言混排文档中保持了极高的还原精度,有效解决了科研与教育场景的痛点。

复杂表格解析: 面对跨页、跨单元格及多层表头的复杂表格,GLM-OCR 能够直接理解逻辑结构并输出标准 HTML 代码,极大提升了数据录入与转换效率。

票据与卡证提取: 支持从各类非结构化票据中智能提取关键字段,并直接输出结构化的 JSON 数据,适配银行、保险及物流系统的自动化需求。

RAG支撑: 其高精度的识别能力与规整的 Markdown/JSON 输出格式,为检索增强生成(RAG)系统提供了高质量的数据底座。

行业应用与接入

GLM-OCR 的高性价比使其迅速覆盖了教育、科研、办公、政务、金融、保险及物流等多个核心行业。

在接入方面,智谱提供了灵活的 API 调用方式与批量处理工具。相比传统人工录入或昂贵的专用软件,GLM-OCR 将文档处理成本降低至 “白菜价”(1 元可处理海量文档)。未来,团队还将持续迭代,计划推出更多尺寸版本,并将能力拓展至更多语种及视频 OCR 领域。

AITOP100小编总结

GLM-OCR 以 “小尺寸、高精度” 重新定义了复杂文档处理的性价比标准。其在复杂版式、手写印章及多语混排下的卓越鲁棒性,叠加极低的部署成本与开放 API,正在推动文档解析技术从单一的 “工具” 向行业通用的 “基础设施” 演进。

文章来源:AITOP100

原文链接:https://www.aitop100.cn/infomation/details/33259.html

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 1:22:50

AI模型推理延迟突增?架构师教你:模型轻量化+缓存优化应急响应技巧

AI模型推理延迟突增?架构师教你:模型轻量化+缓存优化应急响应技巧 关键词:AI模型、推理延迟、模型轻量化、缓存优化、应急响应、架构设计、性能优化 摘要:本文主要探讨当AI模型推理延迟突然增加时,如何通过模型轻量化与缓存优化的应急响应技巧来解决问题。首先介绍相关背景…

作者头像 李华
网站建设 2026/3/25 10:57:13

难绷!和阿里 P11/P12 约会相亲?女网友竟称“也没那么难钓嘛”

今日份趣图,属于小某书上推某软件的软文帖子了。28 岁的 P11,29 岁的 P12……忒离谱了!大模型出幻觉后都不如她。不懂大厂职级体系,你随便抓个大模型问就知道的嘛我抓了一个问了,知名的 P11 和 P12 年龄大概如下&#…

作者头像 李华
网站建设 2026/3/26 21:22:52

Waymo融资160亿美元:估值1260亿美元 红杉与DST领投

雷递网 乐天 2月3日自动驾驶出租车先驱Waymo宣布筹集160亿美元,投后估值达到1260亿美元。当前,Waymo正在打造覆盖全球的自动驾驶车队,而其他财力雄厚的竞争对手,例如特斯拉和亚马逊,则正努力追赶。除Alphabet作为主要投…

作者头像 李华
网站建设 2026/4/1 0:14:20

LeakCanary 使用经验分享

文章目录 1. 集成配置 基本依赖配置 自定义配置 2. 使用经验总结 2.1 检测时机 2.2 常见泄漏场景识别 3. 实际项目经验 3.1 误报处理 3.2 自定义排除规则 4. 最佳实践 4.1 版本管理 4.2 性能考虑 4.3 团队协作 5. 高级配置技巧 5.1 自定义 Heap Dumper 5.2 监听检测结果 6. 常见…

作者头像 李华
网站建设 2026/3/27 17:15:15

【软考每日一练030】软件维护:逆向工程与再工程的区别与联系

【软考每日一练030】软件维护:逆向工程与再工程的区别与联系 一、 题目回顾 6. ( ) 是在逆向工程所获取信息的基础上修改或重构已有的系统,产生系统的一个新版本。 A. 逆向分析 (Reverse Analysis) B. 重组 (Restructuring) C. 设计恢复 (Design Reco…

作者头像 李华
网站建设 2026/3/31 12:41:33

解读大数据领域HDFS的元数据管理

深入解读大数据领域HDFS的元数据管理 摘要/引言 问题陈述 在大数据存储与处理的场景中,Hadoop分布式文件系统(HDFS)作为重要的数据存储基石,面临着如何高效管理海量元数据的挑战。元数据记录着文件系统的关键信息,如文…

作者头像 李华