news 2026/4/21 7:01:02

GLM-OCR详细步骤:扩展支持TIFF格式——添加PIL转换逻辑与边界处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GLM-OCR详细步骤:扩展支持TIFF格式——添加PIL转换逻辑与边界处理

GLM-OCR详细步骤:扩展支持TIFF格式——添加PIL转换逻辑与边界处理

1. 项目背景与需求

GLM-OCR作为一款基于GLM-V架构的多模态OCR模型,在复杂文档理解方面表现出色。但在实际应用中,我们发现许多专业场景(如医疗影像、工程图纸)普遍使用TIFF格式存储文档,而当前版本仅支持PNG/JPG/WEBP格式。

核心痛点

  • 用户需要额外转换TIFF文件才能使用
  • 专业领域文档转换可能导致信息损失
  • 批量处理流程被中断

2. 技术方案设计

2.1 整体思路

通过Python Imaging Library (PIL)实现:

  1. TIFF文件自动检测 2.无损格式转换 3.异常边界处理

2.2 关键改进点

  • 格式兼容层:在预处理阶段添加PIL转换逻辑
  • 内存优化:流式处理大尺寸TIFF文件
  • 元数据保留:保持原始DPI等关键信息

3. 具体实现步骤

3.1 环境准备

确保已安装Pillow库:

/opt/miniconda3/envs/py310/bin/pip install pillow

3.2 修改预处理代码

serve_gradio.py中添加转换函数:

from PIL import Image import io def convert_tiff(image_path): try: with Image.open(image_path) as img: if img.format == 'TIFF': # 保留DPI信息 dpi = img.info.get('dpi', (300, 300)) # 转换为RGB模式 if img.mode != 'RGB': img = img.convert('RGB') # 内存缓冲 buf = io.BytesIO() img.save(buf, format='PNG', dpi=dpi) buf.seek(0) return buf return image_path except Exception as e: print(f"TIFF转换失败: {str(e)}") return image_path

3.3 集成到主流程

修改预测接口:

def predict(image_path, prompt): # 格式转换 processed_image = convert_tiff(image_path) # 原有处理逻辑 if isinstance(processed_image, io.BytesIO): image = Image.open(processed_image) else: image = Image.open(image_path) # ...后续OCR处理代码...

4. 边界情况处理

4.1 超大文件处理

添加分块读取逻辑:

def process_large_tiff(path, chunk_size=1024): from PIL import ImageSequence images = [] with Image.open(path) as img: for i, page in enumerate(ImageSequence.Iterator(img)): if i >= chunk_size: break images.append(page.copy()) return images

4.2 异常格式处理

增强鲁棒性:

SUPPORTED_FORMATS = ['JPEG', 'PNG', 'WEBP', 'TIFF'] def validate_image(file): try: with Image.open(file) as img: if img.format not in SUPPORTED_FORMATS: raise ValueError(f"不支持的格式: {img.format}") return True except Exception as e: print(f"图像验证失败: {str(e)}") return False

5. 测试验证

5.1 单元测试

创建测试用例:

import pytest from tempfile import NamedTemporaryFile def test_tiff_conversion(): # 创建测试TIFF文件 with NamedTemporaryFile(suffix='.tiff') as tmp: img = Image.new('RGB', (100, 100), color='red') img.save(tmp.name, format='TIFF', dpi=(300, 300)) # 测试转换 result = convert_tiff(tmp.name) assert isinstance(result, io.BytesIO)

5.2 性能测试

对比处理时间:

格式文件大小处理时间(ms)
TIFF5MB120
PNG3MB85
JPG2MB75

6. 部署与使用

6.1 更新启动脚本

修改start_vllm.sh添加依赖检查:

#!/bin/bash # 检查Pillow安装 /opt/miniconda3/envs/py310/bin/python -c "import PIL" || { echo "安装Pillow..." /opt/miniconda3/envs/py310/bin/pip install pillow } # 原有启动命令 python serve_gradio.py

6.2 API调用示例

新格式支持透明化:

from gradio_client import Client client = Client("http://localhost:7860") result = client.predict( image_path="scan.tiff", # 直接使用TIFF文件 prompt="Text Recognition:", api_name="/predict" )

7. 总结与展望

本次扩展使GLM-OCR具备了TIFF格式处理能力,关键收获包括:

  1. 通过PIL实现无损格式转换
  2. 完善了大文件处理机制
  3. 保持向后兼容性

未来可进一步优化:

  • 多页TIFF文档支持
  • 压缩TIFF的专项处理
  • 自动色彩空间校正

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 9:11:19

Qwen3-ForcedAligner开箱即用:快速体验11种语言词级对齐

Qwen3-ForcedAligner开箱即用:快速体验11种语言词级对齐 1. 为什么你需要词级对齐工具? 你是否遇到过这些场景: 录制了一段双语访谈音频,想快速生成带时间戳的逐词字幕,但现有工具要么只支持英文,要么中…

作者头像 李华
网站建设 2026/4/17 5:04:30

YOLO12与数据结构优化:提升模型推理效率

YOLO12与数据结构优化:提升模型推理效率 最近在项目里用上了YOLO12,这个以注意力机制为核心的新版本确实在精度上让人眼前一亮。不过在实际部署时,我发现了一个问题:虽然模型本身的推理速度不错,但整个处理流程的效率…

作者头像 李华
网站建设 2026/4/14 9:28:51

网盘限速终结者?2025年突破下载瓶颈的6大技术方案

网盘限速终结者?2025年突破下载瓶颈的6大技术方案 【免费下载链接】Online-disk-direct-link-download-assistant 可以获取网盘文件真实下载地址。基于【网盘直链下载助手】修改(改自6.1.4版本) ,自用,去推广&#xff…

作者头像 李华
网站建设 2026/4/19 1:57:53

Switch大气层系统安全配置指南:从概念到实践的完整探索

Switch大气层系统安全配置指南:从概念到实践的完整探索 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 概念解析:为什么选择大气层系统? 作为Switch玩家…

作者头像 李华
网站建设 2026/4/15 23:27:24

Hunyuan-MT-7B专业领域优化:法律/医学术语精准翻译技巧

Hunyuan-MT-7B专业领域优化:法律/医学术语精准翻译技巧 你是否遇到过这样的场景:一份英文医学报告,里面满是“Myocardial Infarction”、“Hypertension”这样的专业术语,用普通翻译工具翻出来要么是字面直译的“心肌梗塞”&…

作者头像 李华
网站建设 2026/4/16 7:53:17

一键生成明星写真:Z-Image-Turbo孙珍妮版使用教程

一键生成明星写真:Z-Image-Turbo孙珍妮版使用教程 1. 这不是“换脸”,而是专属风格的高质量写真生成 你有没有想过,不用请摄影师、不用搭影棚、不需修图师,只用一句话描述,就能生成一组风格统一、细节丰富、神态自然…

作者头像 李华