LightOnOCR-2-1B入门指南：从IP访问7860界面到获取base64编码调用API-开发者社区

LightOnOCR-2-1B入门指南：从IP访问7860界面到获取base64编码调用API

1. 这个OCR模型到底能帮你解决什么问题？

你有没有遇到过这样的场景：手头有一张扫描的合同、一张手机拍的发票、或者一页PDF截图，里面全是密密麻麻的文字，但你就是没法直接复制粘贴？要么识别错别字一堆，要么表格结构全乱，要么中英文混排直接崩溃。传统OCR工具要么要联网上传到第三方平台，担心数据安全；要么本地部署复杂得像在搭火箭，光环境配置就能耗掉一整天。

LightOnOCR-2-1B 就是为这类真实痛点而生的。它不是那种“看起来很美”的演示模型，而是一个真正能在你自己的服务器上跑起来、开箱即用的多语言文字提取工具。它不依赖外部服务，所有图片都在你自己的机器里处理；它不需要你成为深度学习专家，连 Docker 都不用装；它甚至对中文的支持非常扎实——不只是简单识别汉字，还能准确还原段落结构、保留数学公式符号、正确解析中英混排的表格标题。

最实在的一点是：你不需要从零开始写代码。它自带一个点点鼠标就能用的网页界面，也提供标准 API 接口供你集成进现有系统。无论你是想快速提取一份采购单上的信息，还是准备把 OCR 功能嵌入到公司内部的文档管理系统里，这个模型都能在半小时内让你看到结果。

2. 它不是“又一个OCR”，而是专为中文场景打磨过的1B参数模型

LightOnOCR-2-1B 是一个参数量为 10 亿（1B）的端到端 OCR 模型，但它和市面上很多“大而全”的通用模型有本质区别：它从训练数据、文本布局理解、到后处理逻辑，都是围绕真实办公文档优化的。

它支持 11 种语言，包括中文、英文、日文、法文、德文、西班牙文、意大利文、荷兰文、葡萄牙文、瑞典文和丹麦文。但重点来了——这 11 种语言不是平均用力。中文是它的核心训练语料之一，模型对简体中文的字体变化（比如微软雅黑、宋体、手写体扫描件）、常见干扰（印章覆盖、纸张褶皱、低对比度）、以及典型格式（合同条款编号、发票税号位置、表格行列对齐）都有针对性建模。你拿一张带红色印章的增值税专用发票截图试试，它大概率能干净地把“金额”“税率”“价税合计”这些字段单独识别出来，而不是糊成一团。

另外，它不是只认“印刷体”。对清晰的手写签名、工整的填表笔迹、甚至部分打印+手写混合的表单（比如报销单），识别准确率也远超基础 OCR 引擎。这不是靠堆算力，而是模型结构里内置了文档版面分析（Document Layout Analysis）模块，能自动区分标题、正文、表格、页眉页脚，再分区域做文字识别。

所以别被“1B 参数”吓住——它不是为了刷榜单而设计的庞然大物，而是一个精悍、务实、特别懂中文办公文档的“文字挖掘机”。

3. 两步搞定：用浏览器打开7860界面，上传图片就出结果

你不需要懂 Python，不需要配 CUDA，甚至不需要知道 vLLM 是什么。只要你的服务器已经跑起来了，整个过程就像打开一个网页、传一张图、点一下按钮那么简单。

3.1 访问界面：记住这个地址，以后天天用

打开你常用的浏览器（Chrome、Edge、Firefox 都行），在地址栏输入：

http://<服务器IP>:7860

这里的<服务器IP>就是你部署这台机器的局域网或公网 IP 地址。比如你的服务器内网 IP 是192.168.1.100，那就输http://192.168.1.100:7860；如果是云服务器，就填你分配到的公网 IP。

如果页面正常加载出来，你会看到一个简洁的界面：中间是上传区，右边是识别结果预览框，顶部有“Extract Text”按钮。这就说明前端服务已经稳稳运行了。

3.2 上传图片：支持常见格式，但有细节讲究

点击上传区，或者直接把图片文件拖进去。它原生支持 PNG 和 JPEG 格式，这是绝大多数扫描件和手机拍照的默认格式，不用额外转换。

不过这里有个小技巧：别直接传手机原图。如果你用 iPhone 拍了一张 A4 纸，原图可能高达 4000×3000 像素，不仅上传慢，识别时还容易因分辨率过高导致局部模糊。按官方建议，把图片最长边缩放到1540 像素左右效果最佳。你可以用系统自带的“画图”或“预览”App 快速调整，或者用命令行一行搞定：

convert input.jpg -resize 1540x output.jpg

（需要先安装 ImageMagick，apt install imagemagick）

传完图后，稍等 1–3 秒（取决于图片大小和 GPU 性能），预览框里就会实时显示出识别出的文字。你会发现它不只是把字“抠”出来，还会尽量保持原文档的段落换行和空格逻辑。比如合同里的“甲方：”这一行，它会完整保留，而不是拆成“甲方”和“”两行。

3.3 提取文字：一键复制，无缝接入你的工作流

确认识别结果没问题后，点击右下角的“Extract Text”按钮。结果会立刻以纯文本形式显示在下方的大文本框里。

这时候你可以：

直接Ctrl+A全选 →Ctrl+C复制 → 粘贴到 Word、Excel 或微信里；
如果是表格类图片（比如商品报价单），它会用制表符\t分隔列，粘贴到 Excel 里能自动对齐；
如果识别出了数学公式（比如E = mc²），符号也会原样保留，不会变成E = mc2。

整个过程没有登录、没有水印、没有调用量限制——因为所有计算都在你自己的显卡上完成。

4. 进阶用法：用 curl 调 API，把 OCR 变成你系统的“文字眼睛”

当你不再满足于手动点点点，而是想让 OCR 能力自动跑在后台、批量处理上百份文件、或者集成进你正在开发的审批系统时，API 就是你的钥匙。

4.1 API 地址和基本结构：和前端是同一套后端

API 的入口地址是：

http://<服务器IP>:8000/v1/chat/completions

注意，它和前端界面（7860 端口）是两个独立的服务进程，但共享同一个模型。也就是说，你在网页上看到的效果，和调 API 得到的结果，完全一致。

这个 API 设计遵循了 OpenAI 兼容接口规范，所以如果你之前调过 LLM API，会感觉非常熟悉：发一个 POST 请求，带上 JSON 格式的请求体，返回也是标准 JSON。

4.2 关键一步：把图片转成 base64 编码

API 不接受文件上传，它只认一种格式：data URL。也就是把图片内容直接编码成一长串文本，塞进 JSON 里。

怎么操作？很简单。在 Linux 或 macOS 终端里，进入图片所在目录，执行：

base64 -i your_image.png | tr -d '\n'

Windows 用户可以用 PowerShell：

[Convert]::ToBase64String((Get-Content "your_image.png" -Encoding Byte)) -replace "`n|`r",""

你会得到一长串类似iVBORw0KGgoAAAANSUhEUgAA...的字符。把它复制下来，替换下面 curl 命令里的<BASE64_IMAGE>占位符。

4.3 完整可运行的 curl 示例

把下面这段命令复制进你的终端（记得替换 IP 和 base64 字符串）：

curl -X POST http://192.168.1.100:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/root/ai-models/lightonai/LightOnOCR-2-1B", "messages": [{ "role": "user", "content": [{"type": "image_url", "image_url": {"url": "data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAA..."}}] }], "max_tokens": 4096 }'

执行后，你会立刻收到一个 JSON 响应，关键信息在choices[0].message.content字段里。它返回的就是纯文本结果，和网页界面上“Extract Text”按钮输出的内容一模一样。

你可以用 Python、Node.js、Java 写个脚本，循环读取一个文件夹里的所有图片，挨个调这个 API，把结果存成.txt文件——批量处理 100 份合同，5 分钟搞定。

5. 日常维护：三招搞定服务状态、停止与重启

模型跑得好不好，关键看服务稳不稳。你不需要天天盯着，但得知道怎么快速检查、怎么优雅重启。

5.1 查看服务是否活着：两行命令，一眼看清

打开终端，输入：

ss -tlnp | grep -E "7860|8000"

这条命令的意思是：“列出所有监听中的 TCP 端口，并筛选出包含 7860 或 8000 的行”。

如果看到类似这样的输出：

LISTEN 0 128 *:7860 *:* users:(("python",pid=12345,fd=5)) LISTEN 0 128 *:8000 *:* users:(("vllm",pid=12346,fd=7))

说明两个服务都正常运行着，PID（进程号）分别是 12345 和 12346。

如果什么都没输出，或者只有一行，那对应的服务就挂了，需要重启。

5.2 停止服务：干净利落，不留残影

有时候你想更新模型、修改配置，或者服务卡住了，就需要彻底关掉它。执行：

pkill -f "vllm serve" && pkill -f "python app.py"

这条命令会强制杀死所有包含vllm serve和python app.py字样的进程。它比kill -9更精准，不会误杀其他 Python 任务。

5.3 重启服务：回到最初的样子

确保你已经进入项目根目录：

cd /root/LightOnOCR-2-1B

然后运行启动脚本：

bash /root/LightOnOCR-2-1B/start.sh

这个start.sh脚本会自动：

启动 vLLM 后端服务（监听 8000 端口）；
启动 Gradio 前端服务（监听 7860 端口）；
把日志输出到logs/目录，方便你后续排查问题。

等终端不再滚动新日志，大概 10–20 秒后，刷新http://<服务器IP>:7860，界面重新出现，就说明一切恢复正常。

6. 实战经验：这些细节决定你用得顺不顺利

我用这个模型处理过上千份真实文档，总结出几条不写在文档里、但特别影响体验的经验，分享给你。

6.1 图片质量 > 模型参数：一张好图胜过十次重试

GPU 内存占用约 16GB，听起来不少，但真正卡顿的往往不是显存，而是输入质量。我见过太多人抱怨“识别不准”，结果一看原图：手机歪着拍的、有反光、边缘虚焦、或者直接是 PDF 截图（带锯齿）。请一定记住：

优先用扫描仪，哪怕是最便宜的 A4 扫描仪，效果也远超手机；
必须裁剪无关白边，模型会把大片空白也当成“内容区域”去分析，浪费算力；
避免强阴影和高光，用手机拍时，找个均匀光源，别让灯直射纸面。

6.2 表格和公式：不是“能不能”，而是“怎么喂”

它确实支持表格和数学公式，但有个前提：表格线要清晰，公式要居中、无遮挡。如果是一张 Excel 导出的 PNG，表格线是实线，它能完美还原行列结构；但如果是一张手绘表格，线条断断续续，它可能把几行合并成一段。

公式同理。a² + b² = c²这种标准写法没问题；但如果你写的是a2 + b2 = c2（用数字代替上标），它也会照单全收——因为它识别的是“字符”，不是“语义”。所以，想获得最佳效果，原始图片越规范，结果就越省心。

6.3 目录结构：了解它，才能改得安心

最后，快速认识下它的“身体构造”，这样你以后想改界面、换模型、加功能，心里就有底：

/root/LightOnOCR-2-1B/ ├── app.py # Gradio 前端代码，改这里可以调整网页按钮、样式 ├── model.safetensors # 模型权重文件（2GB），别删！ └── config.json # 模型配置，比如最大上下文长度、默认温度值 /root/ai-models/lightonai/LightOnOCR-2-1B/ # vLLM 加载模型的缓存路径

比如你想把默认识别语言从“自动检测”改成“强制中文”，只需要打开app.py，找到model初始化那段，加上language="zh"参数即可。改完保存，重启服务，立马生效。