news 2026/4/15 3:58:27

腾讯POINTS-Reader:端到端文档转文本新工具

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯POINTS-Reader:端到端文档转文本新工具

腾讯POINTS-Reader:端到端文档转文本新工具

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

导语:腾讯混元团队推出POINTS-Reader视觉语言模型,以端到端架构实现文档图片到文本的直接转换,无需复杂后处理,在中英文文档提取任务中表现优异,同时兼顾高吞吐量部署需求。

行业现状:文档理解技术迎来范式转变

随着数字化办公的深入,文档信息提取已成为企业和个人的核心需求。传统文档处理工具多采用"OCR识别-布局分析-内容提取"的多阶段流水线架构,不仅系统复杂,还存在误差累积问题。近年来,基于视觉语言模型(VLM)的端到端解决方案逐渐成为趋势,这类模型能直接处理文档图片并输出结构化文本,大幅简化处理流程。

据OmniDocBench等权威评测显示,当前主流工具在复杂文档(如包含公式、表格的学术论文)处理上仍存在挑战,尤其在中文场景下,因字符复杂性和排版多样性,错误率普遍高于英文处理。同时,企业级应用对模型吞吐量和部署成本的要求,也推动着轻量级高性能模型的研发。

POINTS-Reader核心亮点解析

1. 极简架构实现端到端转换

POINTS-Reader采用高度精简的模型结构,基于POINTS1.5架构优化而来,将大语言模型组件替换为更轻量的Qwen2.5-3B-Instruct。模型输入仅需固定提示词与文档图片,输出即为最终文本结果,彻底消除传统流水线所需的后处理环节。这种"输入即图片,输出即文本"的设计,显著降低了集成难度,开发者可直接调用API获取结果。

2. 中英双语提取性能领先

在OmniDocBench评测中,POINTS-Reader展现出强劲性能:英文文档总体编辑距离(Edit↓)达到0.133,中文达到0.212,尤其在表格提取任务上表现突出,英文表格TEDS指标(↑)达83.7,中文达85.0,超过多数专业OCR工具和通用视觉语言模型。这一成绩得益于针对中英文混合排版的专项优化,能有效处理竖排文字、复杂公式和多语言混排场景。

3. 轻量化设计实现高吞吐量

模型选用600M参数的NaViT视觉编码器,在保证性能的同时控制计算资源消耗。目前已支持SGLang部署框架,并即将推出vLLM支持,通过高效的推理优化,实现了令人满意的吞吐量表现。这种轻量化特性使POINTS-Reader可部署于边缘设备或云端服务器,满足不同场景的实时处理需求。

4. 开源创新数据增强策略

腾讯团队在EMNLP 2025主会收录的论文中,详细阐述了POINTS-Reader采用的两阶段数据增强策略:第一阶段利用自动化数据构建基础提取能力,第二阶段通过模型自进化持续提升生成数据质量。这一方法具有高度可扩展性,已作为开源技术方案对外分享,助力行业解决文档理解的数据稀缺问题。

行业影响:重新定义文档处理效率

POINTS-Reader的推出将对多个领域产生深远影响。在企业服务领域,金融、法律等行业的合同解析、报表处理效率有望提升40%以上;在教育领域,学术论文的公式和图表提取将不再依赖人工校对;在数字化转型中,历史文档的批量电子化成本可降低30%-50%。

相较于传统OCR工具,POINTS-Reader的端到端架构减少了系统集成复杂度;与通用大模型(如GPT-4o、Gemini)相比,其专项优化的文档理解能力和更低的部署成本,使其在垂直场景更具竞争力。随着vLLM支持的上线,预计该模型将在企业级文档处理API市场占据重要地位。

结论与前瞻

POINTS-Reader通过架构创新和工程优化,在文档理解领域树立了新标杆。其"结构精简、性能优异、部署灵活"的特性,不仅解决了当前文档处理的痛点,更展示了视觉语言模型在垂直任务上的巨大潜力。未来,随着多语言支持的完善和复杂布局处理能力的提升,POINTS-Reader有望成为文档数字化的基础设施,推动更多行业实现智能化升级。

腾讯混元团队开源的技术方案,也将加速文档理解领域的技术迭代,预计未来1-2年内,端到端文档转换将成为行业标配,彻底改变传统OCR工具的市场格局。

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 22:12:42

NextStep-1:14B参数AI绘图新体验来了

NextStep-1:14B参数AI绘图新体验来了 【免费下载链接】NextStep-1-Large-Pretrain 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Pretrain 导语:StepFun AI推出140亿参数的NextStep-1大模型,采用创新的自回归连续令牌…

作者头像 李华
网站建设 2026/4/13 15:18:09

GLM-4.5-Air-Base开源:免费商用的高效智能推理模型

GLM-4.5-Air-Base开源:免费商用的高效智能推理模型 【免费下载链接】GLM-4.5-Air-Base 项目地址: https://ai.gitcode.com/zai-org/GLM-4.5-Air-Base 导语:智谱AI正式开源GLM-4.5-Air-Base大语言模型,以MIT许可证开放商用&#xff0c…

作者头像 李华
网站建设 2026/4/12 16:43:39

GLM-4.6横空出世:200K上下文+代码能力新标杆

GLM-4.6横空出世:200K上下文代码能力新标杆 【免费下载链接】GLM-4.6 GLM-4.6在GLM-4.5基础上全面升级:200K超长上下文窗口支持复杂任务,代码性能大幅提升,前端页面生成更优。推理能力增强且支持工具调用,智能体表现更…

作者头像 李华
网站建设 2026/4/13 8:57:51

AI修图神器:FLUX LoRA让虚拟人物秒变真人

AI修图神器:FLUX LoRA让虚拟人物秒变真人 【免费下载链接】kontext-make-person-real 项目地址: https://ai.gitcode.com/hf_mirrors/fofr/kontext-make-person-real 导语:一款名为kontext-make-person-real的FLUX LoRA模型近日引发关注&#xf…

作者头像 李华
网站建设 2026/3/30 20:44:09

TikTokMod终极指南:免费打造个性化短视频体验

TikTokMod终极指南:免费打造个性化短视频体验 【免费下载链接】TikTokMod My TikTok Modification repo 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokMod 想要完全掌控你的TikTok体验吗?TikTokMod项目为你提供了一个完美的解决方案&#…

作者头像 李华
网站建设 2026/4/6 10:15:02

解锁macOS音频新境界:BlackHole虚拟驱动全方位使用指南

解锁macOS音频新境界:BlackHole虚拟驱动全方位使用指南 【免费下载链接】BlackHole BlackHole is a modern macOS audio loopback driver that allows applications to pass audio to other applications with zero additional latency. 项目地址: https://gitcod…

作者头像 李华