news 2026/4/16 14:04:53

mineru离线环境解析文档报“Connection to paddleocr.bj.bcebos.com timed out.”

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
mineru离线环境解析文档报“Connection to paddleocr.bj.bcebos.com timed out.”

一.错误描述

在离线环境的服务器中,使用mineru解析文档时,可能会报如下的错误:

HTTPSConnectionPool(host='paddleocr.bj.bcebos.com', port=443): Max retries exceeded with url: /PP-OCRv4/chinese/ch_PP-OCRv4_det_infer.tar (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7ff1e49af100>, 'Connection to paddleocr.bj.bcebos.com timed out. (connect timeout=None)'))

报这个错误的原因是mineru中使用了百度飞浆的OCR的能力,在解析文档时,会自行下载百度飞浆的模型文件。由于服务器是离线环境,所以在下载模型文件时,会连接超时。

二.文件下载

针对上述问题,我们可以先在有网络的环境,将所需要的模型文件下载好后,再拷贝到离线环境的服务器中。根据本文中错误提示信息,我们发现是需要下载中中和英文的PP-OCRv4这个版本的OCR。本例中一共需要下载了三类模型文件。
1.ch_PP-OCRv4_det_infer.tar(文本检测模型)
作用:
检测图像中文字的位置,用矩形框标出文本区域。

下载地址:

2.ch_PP-OCRv4_rec_infer.tar(文本识别模型)

作用:识别文本区域中的具体文字内容。

下载地址:https://paddleocr.bj.bcebos.com/PP-OCRv4/chinese/ch_PP-OCRv4_rec_infer.tar

3.ch_ppocr_mobile_v2.0_cls_infer.tar(文本方向分类模型)

作用:判断文本的方向,进行自动旋转校正。

下载地址:https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar

三.文件拷贝

对于步骤二中已经下载好的三个模型文件,我们可以使用U盘将模型文件拷贝到离线的mineru服务器。本文中是将模型文件服务器的home目录下了。
1.ch_PP-OCRv4_det_infer.tar(文本检测模型)

tar -xvf ch_PP-OCRv4_det_infer.tar mkdir -p /root/.paddleocr/whl/det/ch/ch_PP-OCRv4_det_infer/ cp -R /home/ch_PP-OCRv4_det_infer/* /root/.paddleocr/whl/det/ch/ch_PP-OCRv4_det_infer/

2.ch_PP-OCRv4_rec_infer.tar(文本识别模型)

tar -xvf ch_PP-OCRv4_rec_infer.tar mkdir -p /root/.paddleocr/whl/rec/ch/ch_PP-OCRv4_rec_infer/ cp -R /home/ch_PP-OCRv4_rec_infer/* /root/.paddleocr/whl/rec/ch/ch_PP-OCRv4_rec_infer/

3.ch_ppocr_mobile_v2.0_cls_infer.tar(文本方向分类模型)

tar -xvf ch_ppocr_mobile_v2.0_cls_infer.tar mkdir -p /root/.paddleocr/whl/cls/ch_ppocr_mobile_v2.0_cls_infer/ cp -R /home/ch_ppocr_mobile_v2.0_cls_infer/* /root/.paddleocr/whl/cls/ch_ppocr_mobile_v2.0_cls_infer/

完成以上三个步骤的命令后,我们就把mineru所需要的模型文件拷贝到了相应的目录,此时mineru就可以完成文档解析的操作了。
对于使用docker安装的mineru服务,我们可以使用docker cp命令将所有的模型文件拷贝到容器的/root/.paddleocr/whl/对应的目录下即可。拷贝完成后,最好以此容器为基础来创建一个新的镜像,再以这个新镜像来启动容器,以避免容器重新启动后,拷贝的模型文件又被还原了。

docker cp /home/... container:/root/.paddleocr/...
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 6:53:21

GO 教程

Go linker&#xff08;go tool link&#xff09;参数速查表一、构建标识 / 版本 / 信息注入&#xff08;最常用 ⭐⭐⭐&#xff09;参数说明常用-B note设置 ELF Build ID / Mach-O UUID⭐-buildid id设置 Go build ID&#xff08;-buildid 可禁用&#xff09;⭐⭐-X importpat…

作者头像 李华
网站建设 2026/4/16 12:19:53

双碳目标下综合能源系统低碳运行优化调度Matlab实现

双碳目标下综合能源系统低碳运行优化调度Matlab程序 包含光伏、风电、热电联产、燃气锅炉、电锅炉、电储能、碳捕集设备&#xff0c;考虑碳交易 以系统运行成本最小为目标函数 采用Yalmip&#xff0b;Cplex求解在双碳目标的大背景下&#xff0c;综合能源系统的低碳运行优化调度…

作者头像 李华
网站建设 2026/4/16 13:51:26

springboot+vue校园二手闲置物品拍卖系统 人脸识别

目录摘要开发技术核心代码参考示例1.建立用户稀疏矩阵&#xff0c;用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度总结源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;摘要 校园二手闲置物品拍卖系统结合SpringBoo…

作者头像 李华