训练数据格式报错？cv_resnet18_ocr-detection ICDAR2015适配指南-开发者社区

训练数据格式报错？cv_resnet18_ocr-detection ICDAR2015适配指南

1. 模型与工具简介

1.1 cv_resnet18_ocr-detection 是什么

cv_resnet18_ocr-detection 是一个轻量级、高精度的 OCR 文字检测模型，专为中文和英文混合场景优化。它基于 ResNet-18 主干网络构建，配合改进的 FPN（特征金字塔）结构和 DB（Differentiable Binarization）检测头，在保持低推理开销的同时，实现了对倾斜、弯曲、小尺寸文字区域的稳定检出能力。

这个模型不是通用大模型，而是聚焦于“定位文字在哪里”这一核心任务——它不负责识别文字内容（那是 OCR 识别模型的事），而是精准画出每段文字的四边形边界框。你可以把它理解成一位专注的“文字圈选员”：不管字是横着、斜着、叠在一起还是藏在复杂背景里，它都能用最合适的四边形把它们框出来。

它由科哥独立完成工程化封装与 WebUI 集成，已通过 ICDAR2015、CTW1500 等主流检测数据集验证，特别适合部署在边缘设备或中等算力服务器上运行。

1.2 为什么训练总报错？根源在这里

很多用户在点击“开始训练”后，界面卡在“等待开始训练...”，或者直接弹出红色错误提示，比如：

ValueError: invalid literal for int() with base 10: 'x1,y1,x2,y2,x3,y3,x4,y4,文本内容' File "train.py", line 127, in load_anno coords = [int(float(x)) for x in line.strip().split(',')[:8]]

这类报错几乎 90% 都不是代码问题，而是训练数据格式没对齐。WebUI 的训练模块严格遵循 ICDAR2015 官方标注规范，但很多人误用了其他数据集（如 COCO-Text、Total-Text）的格式，或手动编辑时多了一个空格、少了一个逗号、用了中文逗号，甚至把图片路径写错了——这些细微偏差都会让训练脚本在第一行读取时就崩溃。

这不是模型“娇气”，而是工业级训练流程必须有的严谨性：就像组装精密仪器，螺丝型号差 0.1mm 就拧不进去。本文就是帮你把这颗“螺丝”严丝合缝地拧到位。

2. ICDAR2015 格式详解：手把手拆解每一行

2.1 整体目录结构必须长这样

你准备的数据集根目录（例如/root/custom_data）必须严格满足以下树状结构：

custom_data/ ├── train_list.txt # 必须存在，且内容格式固定 ├── train_images/ # 文件夹名不可改，存放所有训练图 │ ├── img_1.jpg │ ├── img_2.png │ └── img_3.bmp ├── train_gts/ # 文件夹名不可改，存放所有训练标注 │ ├── img_1.txt │ ├── img_2.txt │ └── img_3.txt ├── test_list.txt # 可选，但建议有，用于验证 ├── test_images/ # 可选 │ └── test_1.jpg └── test_gts/ # 可选 └── test_1.txt

注意三个硬性要求：

train_images/和train_gts/这两个文件夹名称一个字母都不能错，不能叫images/或gt/；
图片文件名（如img_1.jpg）和对应标注文件名（img_1.txt）必须完全一致，仅扩展名不同；
所有路径都是相对路径，train_list.txt里写的路径要能从custom_data/目录下直接访问到。

2.2 标注文件（.txt）：8个数字 + 1段文字

打开任意一个train_gts/img_1.txt，它的内容应该长这样：

123,45,189,47,188,89,122,87,欢迎使用OCR服务 345,120,412,122,410,165,343,163,科哥出品 78,234,145,236,143,278,76,276,开源共享

正确要点：

每行代表一个文字实例（一个文字框）；
前8 个数字是四边形顶点坐标，顺序为：x1,y1,x2,y2,x3,y3,x4,y4（顺时针或逆时针均可，但必须连续）；
第 9 项是文本内容，可以是中文、英文、数字、符号，甚至为空（空字符串也合法）；
行末不能有多余空格或换行符；
必须用英文逗号分隔，不能用中文顿号、空格、制表符；
坐标值必须是整数（像素位置），不能带小数点（.0也不行）；
同一张图里可以有任意多行（即多个文字框）。

❌ 常见错误示例（全部会导致报错）：

# 错误1：用了中文逗号 123，45，189，47，188，89，122，87，欢迎使用OCR服务 # 错误2：坐标带小数 123.0,45.0,189.0,47.0,188.0,89.0,122.0,87.0,欢迎使用OCR服务 # 错误3：少了一个坐标（只有7个数） 123,45,189,47,188,89,122,欢迎使用OCR服务 # 错误4：文本里混入了逗号（会破坏字段分割） 123,45,189,47,188,89,122,87,价格：100元 # 错误5：空行或纯空格行 （空行） （空格行）

小技巧：用 VS Code 打开.txt文件，开启“显示所有字符”（Ctrl+Shift+P → “Toggle Render Whitespace”），一眼就能看到隐藏的空格、制表符和多余换行。

2.3 列表文件（train_list.txt）：两列路径，用空格分隔

train_list.txt不是图片名列表，而是图片路径 + 对应标注路径的映射表，每行两项，用单个空格分隔：

train_images/img_1.jpg train_gts/img_1.txt train_images/img_2.png train_gts/img_2.txt train_images/img_3.bmp train_gts/img_3.txt

正确要点：

两项都必须是相对于custom_data/目录的路径；
两项之间只能有一个空格，不能是 Tab 或多个空格；
路径中不能包含中文、空格、特殊符号（如我的图片.jpg❌，应改为my_img.jpg）；
每行结尾不能有空格；
文件名大小写必须完全一致（Linux 系统区分大小写）。

❌ 错误示例：

# 错误1：用了Tab代替空格 train_images/img_1.jpg train_gts/img_1.txt # 错误2：路径写成绝对路径 /root/custom_data/train_images/img_1.jpg /root/custom_data/train_gts/img_1.txt # 错误3：图片名大小写不一致 train_images/IMG_1.jpg train_gts/img_1.txt

3. 三步自检法：5分钟快速定位格式问题

别再靠猜！用这套方法，5 分钟内锁定问题根源。

3.1 第一步：检查文件是否存在 & 名称是否匹配

在终端执行（替换为你的真实路径）：

cd /root/custom_data ls -l train_images/ | head -5 ls -l train_gts/ | head -5

确认：

train_images/下的图片数量 ==train_gts/下的.txt文件数量；
每张图片（如abc.jpg）都有同名.txt（abc.txt）；
所有文件名不含空格、中文、括号。

3.2 第二步：抽样检查标注文件内容

随机选一个.txt文件，用head查看前几行：

head -n 3 train_gts/img_1.txt

输出应类似：

123,45,189,47,188,89,122,87,欢迎使用OCR服务 345,120,412,122,410,165,343,163,科哥出品

然后用这条命令检查是否每行都恰好有 9 个字段（8个数字+1个文本）：

awk -F',' '{print NF}' train_gts/img_1.txt | sort | uniq -c

正常输出应只有一行：1 9
❌ 如果出现1 8或1 10，说明某行字段数不对。

3.3 第三步：验证列表文件格式

检查train_list.txt的前几行和字段数：

head -n 3 train_list.txt awk '{print NF}' train_list.txt | sort | uniq -c

正常输出：

123,45,189,47,188,89,122,87,欢迎使用OCR服务 345,120,412,122,410,165,343,163,科哥出品 1 2 # 表示每行都是2个字段（图片路径 + 标注路径）

❌ 如果输出1 1，说明空格缺失；如果出现1 3，说明某行多了空格。

关键提醒：WebUI 训练模块在启动时，会逐行读取train_list.txt，对每一行的第二项（标注路径）打开并解析第一行。只要第一个.txt文件的第一行出错，整个训练就会立即中断。所以务必先保证train_gts/下第一个文件（按字母序）100% 正确。

4. 实用工具包：一键修复常见格式问题

手动改几十个文件太累？这里提供几个轻量脚本，复制粘贴就能用。

4.1 修复标注文件：去除小数、清理空格、校验字段

将以下 Python 脚本保存为fix_gt.py，放在custom_data/目录下运行：

import os import re gt_dir = "train_gts" for fname in os.listdir(gt_dir): if not fname.endswith(".txt"): continue path = os.path.join(gt_dir, fname) with open(path, "r", encoding="utf-8") as f: lines = f.readlines() fixed_lines = [] for i, line in enumerate(lines): line = line.strip() if not line: continue # 拆分成字段，取前8个转为整数，第9个保持原样 parts = [p.strip() for p in line.split(",")] if len(parts) < 9: print(f" {fname}:{i+1} 字段不足9个，跳过") continue try: coords = [str(int(round(float(p)))) for p in parts[:8]] text = ",".join(parts[8:]) # 允许文本中含逗号 fixed_line = ",".join(coords + [text]) fixed_lines.append(fixed_line) except Exception as e: print(f" {fname}:{i+1} 解析失败: {e}") # 写回文件 with open(path, "w", encoding="utf-8") as f: f.write("\n".join(fixed_lines)) print(f" 已修复 {fname}") print("全部完成！请再检查 train_list.txt")

运行方式：

cd /root/custom_data python fix_gt.py

4.2 生成标准 train_list.txt（自动配对）

如果你的图片和标注文件名已一一对应，用这个脚本自动生成无错列表：

cd /root/custom_data ls train_images/ | sed 's/\(.*\)\..*/\1/' | while read name; do if [ -f "train_gts/${name}.txt" ]; then echo "train_images/${name}.jpg train_gts/${name}.txt" fi done > train_list.txt

这个命令假设所有图片都是.jpg。如果是.png，把最后一行的.jpg改成.png即可。

5. 训练参数调优建议：让模型更快收敛

格式正确只是第一步。想训出好模型，参数设置很关键。

5.1 Batch Size：不是越大越好

GPU 显存 ≤ 4GB（如 GTX 1050 Ti）：用Batch Size = 4
GPU 显存 6–8GB（如 RTX 2060/3060）：用Batch Size = 8（默认值，推荐）
GPU 显存 ≥ 12GB（如 RTX 3090）：可尝试Batch Size = 16，但需观察 loss 是否震荡

原理：Batch Size 太小，梯度更新噪声大；太大，显存溢出或 batch 内样本差异过大，反而拖慢收敛。ICDAR2015 数据集本身图像尺寸较统一（约 1000×700），Batch Size=8是经过实测的平衡点。

5.2 学习率：从 0.007 开始，耐心微调

默认0.007适用于大多数 ICDAR2015 风格数据（清晰文档、印刷体）；
如果你的数据是手机拍摄的模糊图、低对比度图，建议降到0.003，避免初期 loss 爆炸；
如果训练 2–3 轮后 loss 下降缓慢，可尝试0.01，但务必开启“学习率预热”（脚本已内置，无需额外操作）。

5.3 训练轮数（Epoch）：5 轮足够，别硬刷

ICDAR2015 是中小规模数据集（1000 张训练图）。实测表明：

第 1–2 轮：loss 快速下降，检测框召回率明显提升；
第 3–4 轮：precision（准确率）稳步上升，误检减少；
第 5 轮：基本收敛，继续训练收益极小，还可能轻微过拟合。

建议：首次训练设为5轮，观察workdirs/下的val_recall和val_precision曲线。若第 5 轮仍持续上升，再加 2 轮。

6. 训练成功后：如何验证效果？

别急着导出 ONNX，先用 WebUI 亲自“考”一下你的新模型。

6.1 替换模型权重

训练完成后，新权重保存在：

workdirs/your_exp_name/weights/best.pth

将其复制到模型主目录的weights/文件夹，并重命名为best.pth：

cp workdirs/xxx/weights/best.pth /root/cv_resnet18_ocr-detection/weights/

然后重启 WebUI：

bash stop_app.sh && bash start_app.sh

6.2 用“单图检测”做 A/B 测试

找 3 类典型图片：

清晰文档图（如扫描件）→ 验证基础召回；
手机拍摄图（带阴影、反光）→ 验证鲁棒性；
小字号密集图（如表格、说明书）→ 验证细节能力。

分别用旧模型（默认）和新模型检测，对比：

框的数量是否更全（尤其小字、竖排字）；
框的形状是否更贴合文字（避免过大或变形）；
是否减少了误检（如把线条、边框当文字）。

成功标志：新模型在至少 2 类图上，检测框更准、更全、更稳。

7. 总结：ICDAR2015 适配的核心口诀

7.1 格式三原则，记牢不踩坑

路径要对：train_list.txt里的路径，必须能从数据集根目录cd进去直接cat出来；
字段要够：每个.txt标注行，必须是8个整数,1段文本，不多不少；
符号要正：只用英文逗号,和空格，禁用中文标点、Tab、多余空格。

7.2 训练四动作，步步稳落地

先自查：用head+awk三步法扫一遍；
再修复：用fix_gt.py清理标注，用 shell 脚本重生成train_list.txt；
后微调：Batch Size 看显存，学习率看数据质量，Epoch 别贪多；
终验证：换权重、重启服务、真图实测，眼见为实。

你不需要成为数据格式专家，只需要记住：WebUI 的训练模块，是一个严谨的“格式翻译器”——它只认标准 ICDAR2015，不接受任何变体。把输入喂对了，它自然会给你想要的结果。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

训练数据格式报错？cv_resnet18_ocr-detection ICDAR2015适配指南