cv_resnet18_ocr-detection入门必看：模型训练微调详细步骤-开发者社区

cv_resnet18_ocr-detection入门必看：模型训练微调详细步骤

1. 这不是普通OCR，是专为中文场景打磨的文字检测利器

你是不是也遇到过这些情况：

手里有一堆产品说明书、发票、合同扫描件，想快速提取文字却总被歪斜排版、复杂背景、模糊字体卡住；
用现成的OCR工具识别率忽高忽低，同一张图换种格式就漏字；
想自己训练一个更懂中文的检测模型，但被PyTorch配置、数据集格式、训练脚本绕得头晕？

cv_resnet18_ocr-detection 就是为解决这些问题而生的。它不是简单套用通用OCR架构，而是基于ResNet-18主干网络深度优化的文字区域检测模型——轻量、快、准，特别适合中文文档、电商截图、票据等真实业务场景。更重要的是，它自带开箱即用的WebUI，连训练微调都做成点选操作，不用写一行训练代码。

这不是一个“能跑就行”的Demo模型，而是由一线工程师“科哥”在多个实际项目中反复打磨、验证落地效果后开源的实用工具。它不追求论文级指标，只专注一件事：让你今天下午上传数据，明天就能用上更贴合自己业务的OCR检测能力。

下面，我们就从零开始，手把手带你走完数据准备→参数配置→启动训练→验证效果→导出部署的完整闭环。全程无需命令行编译，不碰config文件，所有操作都在浏览器里完成。

2. 训练前必知：你的数据长什么样，模型才认得清

训练效果好不好，七分靠数据，三分靠调参。cv_resnet18_ocr-detection 要求数据严格遵循 ICDAR2015 格式——这不是为了刁难你，而是因为这个格式已被工业界验证多年，兼容性好、标注清晰、扩展性强。

别被“ICDAR”吓到，它其实就三样东西：图片、坐标、文字。我们用最直白的方式说清楚：

2.1 数据目录结构，照着抄就对了

你的自定义数据集必须长这样（路径可自定义，但层级不能少）：

/root/custom_data/ ← 你告诉WebUI的“训练数据目录”就是这层 ├── train_list.txt ← 训练集清单（必须） ├── train_images/ ← 所有训练图片放这里 │ ├── invoice_001.jpg │ └── receipt_023.jpg ├── train_gts/ ← 对应每张图的标注文件（txt格式） │ ├── invoice_001.txt │ └── receipt_023.txt ├── test_list.txt ← 测试集清单（可选，但强烈建议准备） ├── test_images/ ← 测试图片 │ └── sample_test.jpg └── test_gts/ ← 测试标注 └── sample_test.txt

关键提醒：train_list.txt和test_list.txt中的路径必须是相对于数据集根目录的相对路径，比如train_images/invoice_001.jpg train_gts/invoice_001.txt。绝对路径会报错。

2.2 标注文件（.txt）怎么写？两行话说明白

打开invoice_001.txt，里面每一行代表一个文字区域，格式固定为：
x1,y1,x2,y2,x3,y3,x4,y4,文本内容

举个真实例子：

120,85,320,85,320,115,120,115,订单编号：20240001 45,150,180,150,180,180,45,180,下单时间：2024-01-15

这表示图上有两个文字框：

第一个框左上角(120,85)，右上角(320,85)，右下角(320,115)，左下角(120,115)，内容是“订单编号：20240001”；
第二个框同理，内容是“下单时间：2024-01-15”。

小技巧：用LabelImg、CVAT或国产工具“精灵标注助手”都能直接导出这种格式，不用手敲。标注时，四点务必按顺时针顺序（左上→右上→右下→左下），否则模型可能学偏。

2.3 数据量多少才够？给个实在参考

起步验证：20张高质量标注图（覆盖你最常遇到的图片类型），训练3~5轮就能看到明显提升；
业务上线：100~300张，覆盖不同光照、角度、模糊程度、字体样式；
避坑提示：不要拿1000张相似截图充数。模型需要多样性——比如10张发票、10张合同、10张手机截图、10张产品说明书，比100张同款发票有用得多。

3. WebUI里点一点，训练过程全可视化

进入WebUI的【训练微调】Tab页，你会看到三个核心输入区。别急着点“开始训练”，先理解每个参数背后的意义：

3.1 训练数据目录：填对路径，成功一半

在输入框里填入你准备好的数据集根目录，比如/root/custom_data。
注意：

路径末尾不要加斜杠（/root/custom_data/是错的）；
确保该路径对运行WebUI的用户（通常是root）有读取权限；
WebUI会自动检查train_list.txt是否存在、格式是否正确，如果报错，优先检查这个文件。

3.2 三个关键参数，调对它们比调学习率更重要

参数	为什么重要	怎么选才合理	科哥实测建议
Batch Size	太小训练慢，太大会爆显存	看你的GPU显存：GTX 1060（6G）选8，RTX 3090（24G）可选16~24	新手统一选8，稳、快、不翻车
训练轮数（Epoch）	训练太少学不透，太多会过拟合	观察验证集loss曲线，一般5~10轮足够	从5开始，效果不够再加3轮
学习率（LR）	学习率太大跳过最优解，太小收敛慢	初始值0.007是ResNet-18在OCR任务上的黄金起点	别改！默认0.007，95%场景都适用

为什么强调“别改学习率”？因为这个模型的Backbone和Head都已预设适配，0.007是经过大量实验验证的平衡点。乱调反而容易让loss震荡甚至发散。

3.3 点击“开始训练”后，你在看什么？

训练启动后，界面不会黑屏或卡死，而是实时显示：

当前Epoch进度条（如 “Epoch 3/5”）；
训练Loss（越小越好，正常下降趋势）；
验证集Precision/Recall/F1（F1是综合指标，目标是>0.85）；
实时推理耗时（毫秒级，反映模型轻量程度）。

如果某一轮F1突然暴跌（比如从0.82掉到0.45），大概率是某张标注图出错了——去检查train_gts/下对应序号的txt文件，看有没有坐标超出图片范围、逗号多打、文本内容为空等情况。

4. 训练完成之后：模型在哪？怎么用？效果如何？

训练结束，WebUI会弹出绿色提示：“训练完成！模型已保存至workdirs/xxx/”。现在，我们来拆解这个路径里的“宝藏”：

4.1 workdirs/ 目录里，真正有用的就这3个文件

workdirs/ └── 20260105_143022_resnet18_finetune/ ← 时间戳+模型名，每次训练唯一 ├── best.pth ← 最佳权重（F1最高的那轮） ├── last.pth ← 最后一轮权重（有时比best.pth更稳） └── train.log ← 全程训练日志（查错必备）

行动建议：把best.pth复制一份重命名为my_invoice_detector.pth，方便后续管理。

4.2 效果验证：别信数字，要看图说话

训练完立刻验证效果，方法超简单：

切换到【单图检测】Tab；
上传一张没参与训练的测试图（比如test_images/sample_test.jpg）；
把检测阈值调到0.2，点“开始检测”；
对比原图和检测结果图：
- 框得准吗？文字区域是否被完整圈住，没有切字、漏字；
- 框得稳吗？同一张图多次检测，框的位置和数量是否一致；
- 误检多吗？背景花纹、表格线、阴影是否被当成文字框。

如果发现某类文字总漏检（比如小字号英文），说明训练数据里缺这类样本——马上补5张，重新训3轮，效果立竿见影。

4.3 模型升级：用新模型替换旧服务

WebUI默认加载的是初始模型。要换成你刚训好的，只需两步：

把best.pth文件复制到项目根目录的models/文件夹下；
修改config.yaml中的model_path: "models/best.pth"（如果WebUI支持热重载，刷新页面即可生效；否则重启服务bash start_app.sh）。

安全提示：替换前备份原models/下的权重文件，防止回滚困难。

5. 训练只是开始，部署才是价值落地的关键

训好的模型躺在服务器上没用，得让它跑起来、集成进业务系统。cv_resnet18_ocr-detection 提供了最平滑的跨平台部署路径：ONNX导出。

5.1 ONNX导出：三步搞定，比打包Python还简单

进入【ONNX 导出】Tab；
设置输入尺寸：推荐800×800（平衡精度与速度，绝大多数场景够用）；
点击“导出 ONNX”，等待进度条走完 → 出现“导出成功！文件大小：12.4MB”。

导出的文件叫model_800x800.onnx，它不依赖PyTorch、CUDA，Windows/macOS/Linux都能跑，还能部署到Android、Jetson等边缘设备。

5.2 Python调用示例：5行代码，让模型为你打工

import onnxruntime as ort import cv2 import numpy as np # 1. 加载ONNX模型（无GPU也可运行） session = ort.InferenceSession("model_800x800.onnx") # 2. 读图+预处理（和训练时完全一致） image = cv2.imread("invoice.jpg") h, w = image.shape[:2] input_blob = cv2.resize(image, (800, 800)) input_blob = input_blob.transpose(2, 0, 1)[np.newaxis, ...].astype(np.float32) / 255.0 # 3. 推理 outputs = session.run(None, {"input": input_blob}) # 4. 解析输出（outputs[0]是boxes，outputs[1]是scores） boxes = outputs[0][0] # [N, 4] 格式：[x1,y1,x2,y2] scores = outputs[1][0] # [N,] # 5. 过滤低置信度框（阈值0.2） valid_idx = scores > 0.2 final_boxes = boxes[valid_idx]

关键细节：预处理必须和训练时完全一致（尺寸、归一化、通道顺序）。WebUI的ONNX导出已固化此流程，你只需照着示例写就行。

5.3 部署建议：根据场景选“轻重”

你的场景	推荐方案	原因
内网批量处理PDF扫描件	用ONNX + Python脚本，CPU服务器跑	稳定、免GPU、运维成本低
手机App实时拍照识别	导出TensorRT或Core ML，集成进App	延迟<100ms，功耗可控
企业微信/钉钉机器人	WebAPI封装（FastAPI + ONNX）	一行HTTP请求调用，前端零改造