服务无法启动？常见连接问题排查指南-开发者社区

服务无法启动？常见连接问题排查指南

在使用图像修复WebUI时，最常遇到的困扰不是模型效果不好，而是——服务根本没起来。你敲完bash start_app.sh，终端没报错，但浏览器打不开http://服务器IP:7860；或者页面加载一半卡住，状态栏显示“正在连接”却迟迟无响应。这不是模型的问题，而是典型的服务连接层故障。

这类问题不涉及算法、不依赖GPU算力，却最容易让新手止步于第一步。本文不讲原理、不堆参数，只聚焦一个目标：帮你5分钟内定位并解决90%的WebUI连接失败问题。所有排查步骤均基于fft npainting lama重绘修复图片移除图片物品二次开发构建by科哥镜像的实际运行环境（Ubuntu 22.04 + Python 3.10 + Gradio 4.35+），每一步都经过真实复现验证。

1. 确认服务进程是否真正运行

很多“打不开”的本质是——服务压根没跑起来。别急着查防火墙，先看最基础的进程状态。

1.1 检查进程是否存在

在服务器终端执行：

ps aux | grep -E "app\.py|gradio"

正常应看到类似输出：

root 12345 0.1 8.2 2456789 167890 ? Sl 10:23 0:04 python3 /root/cv_fft_inpainting_lama/app.py

如果没有任何含app.py的行，说明服务未启动。此时请回到启动命令：

cd /root/cv_fft_inpainting_lama bash start_app.sh

注意：start_app.sh是一个封装脚本，它实际执行的是python3 app.py --server-name 0.0.0.0 --server-port 7860。如果执行后立即返回命令行（无任何提示），大概率是脚本内部出错了。

1.2 查看启动日志定位静默失败

直接运行脚本主程序，捕获实时错误：

cd /root/cv_fft_inpainting_lama python3 app.py --server-name 0.0.0.0 --server-port 7860

常见报错及对策：

ModuleNotFoundError: No module named 'gradio'
→ 缺少核心依赖。执行pip install gradio==4.35.0（必须指定版本，新版Gradio与该镜像不兼容）
OSError: [Errno 98] Address already in use
→ 端口7860被占用。执行lsof -ti:7860 | xargs kill -9强制释放
torch.cuda.is_available() returned False
→ CUDA不可用，但该镜像支持CPU推理。添加--cpu参数启动：
python3 app.py --server-name 0.0.0.0 --server-port 7860 --cpu
ImportError: libGL.so.1: cannot open shared object file
→ 缺少图形库。执行apt update && apt install -y libglib2.0-0 libsm6 libxext6 libxrender-dev

关键动作：只要看到终端输出Running on public URL: http://...或Running on local URL: http://127.0.0.1:7860，说明服务已就绪。此时按Ctrl+C可安全退出，后续用start_app.sh启动即可。

2. 验证端口监听与网络可达性

进程存在 ≠ 网络可达。这是远程访问失败的最常见原因。

2.1 检查本地端口监听状态

在服务器上执行：

ss -tuln | grep :7860

正常输出应为：

tcp LISTEN 0 5 *:7860 *:* users:(("python3",pid=12345,fd=5))

若无输出，说明服务未绑定到0.0.0.0:7860，而是默认绑定了127.0.0.1:7860（仅限本机访问）。此时需强制指定监听地址：

python3 app.py --server-name 0.0.0.0 --server-port 7860

提示：start_app.sh脚本中已包含--server-name 0.0.0.0，但如果手动修改过脚本或使用其他方式启动，务必确认此参数存在。

2.2 测试本地回环访问

在服务器终端执行：

curl -I http://127.0.0.1:7860

成功响应应包含：

HTTP/1.1 200 OK Content-Type: text/html; charset=utf-8

若返回curl: (7) Failed to connect to 127.0.0.1 port 7860: Connection refused，说明服务未监听本地回环，需检查上一步的进程和参数。

2.3 测试远程访问连通性

在你的本地电脑（Windows/macOS）执行：

# 替换为你的服务器IP ping 服务器IP telnet 服务器IP 7860

若ping失败 → 检查服务器网络配置、云主机安全组（重点！）
若ping成功但telnet超时 →90%是云服务商的安全组未放行7860端口

云服务器安全组配置要点（以阿里云/腾讯云为例）：

协议类型：TCP
端口范围：7860/7860（精确到单端口，非7860/8000）
授权对象：0.0.0.0/0（测试用）或你的本地公网IP（生产建议）

注意：部分云平台要求同时开放7860和7861（Gradio健康检查端口），若仍不通，可一并放开。

3. 浏览器访问失败的典型场景与解法

即使服务运行、端口开放、网络通畅，浏览器仍可能打不开。以下是高频真实案例：

3.1 地址输入错误：`http`vs`https`

Gradio默认使用HTTP协议。绝对不要在浏览器地址栏输入https://服务器IP:7860—— 这会触发SSL握手失败，页面白屏且控制台报ERR_SSL_PROTOCOL_ERROR。

正确写法：http://服务器IP:7860（注意是http，不是https）

3.2 浏览器缓存导致界面加载异常

现象：页面空白、按钮无响应、控制台报Failed to load resource: net::ERR_CONNECTION_RESET。

强制刷新方案（三选一）：

Ctrl+F5（Windows）或Cmd+Shift+R（Mac）硬刷新
浏览器隐身窗口访问
清除当前站点缓存：设置 > 隐私和安全 > 清除浏览数据 > 勾选"Cookie及其他网站数据"、"缓存的图片和文件"

3.3 跨域限制（仅限特定部署场景）

若你在Nginx/Apache后端反向代理了该服务（非镜像默认方式），需在代理配置中添加：

location / { proxy_pass http://127.0.0.1:7860; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; # 关键：允许跨域 add_header 'Access-Control-Allow-Origin' '*'; add_header 'Access-Control-Allow-Methods' 'GET, POST, OPTIONS, PUT, DELETE'; }

本镜像默认为直连模式，无需反向代理。除非你主动修改了部署架构，否则忽略此项。

4. WebUI界面加载后功能异常的快速诊断

服务能打开，但上传图片没反应、点击“ 开始修复”无状态变化？这属于前端交互层问题。

4.1 检查浏览器开发者工具（必做）

按F12打开开发者工具 → 切换到Console标签页 → 刷新页面。

若出现Uncaught ReferenceError: gradio is not defined
→ Gradio前端资源加载失败。检查网络标签页（Network），筛选JS文件，看是否有404。此时需重新构建前端：
cd /root/cv_fft_inpainting_lama && pip install --force-reinstall gradio==4.35.0
若出现Failed to fetch或Network Error
→ 前端无法连接后端API。检查Network标签页中/run请求的状态码。若为502 Bad Gateway，说明后端进程崩溃；若为0，说明网络中断。

4.2 验证图像处理核心模块可用性

在服务器终端执行最小化测试（不依赖WebUI）：

cd /root/cv_fft_inpainting_lama python3 -c " import numpy as np from PIL import Image from model.lama import LamaInpainting # 创建测试图 test_img = np.ones((256, 256, 3), dtype=np.uint8) * 128 mask = np.zeros((256, 256), dtype=np.uint8) mask[100:150, 100:150] = 255 # 初始化模型 model = LamaInpainting() # 执行一次推理 result = model(test_img, mask) print(' CPU推理测试通过') "

若报错CUDA out of memory，说明显存不足，需强制切CPU模式（见1.1节）；若报错No module named 'torch'，则需pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu。

5. 终极排查清单：5步锁定问题根源

当以上步骤仍无法解决时，请按顺序执行以下5个命令，并观察输出：

步骤	命令	期望结果	异常含义
1	`ps aux \| grep app.py`	显示含`app.py`的进程行	服务未启动
2	`ss -tuln \| grep :7860`	显示`*:7860`监听	端口未绑定
3	`curl -I http://127.0.0.1:7860`	返回`HTTP/1.1 200 OK`	本地访问失败
4	`telnet 服务器IP 7860`	显示`Connected to ...`	网络或安全组阻断
5	`python3 -c "import torch; print(torch.cuda.is_available())"`	`True`（GPU）或`False`（CPU）	深度学习环境异常

只要其中任意一步失败，就停止后续操作，专注解决该步问题。90%的“服务无法启动”问题，都能在这5步内定位到具体环节。

6. 预防性建议：让服务稳定运行的3个关键习惯

排查是救火，预防才是根本。基于该镜像长期运行经验，推荐以下实践：

6.1 使用systemd守护进程（替代手动启动）

创建服务文件避免终端关闭导致服务终止：

sudo tee /etc/systemd/system/lama-webui.service << 'EOF' [Unit] Description=LAMA Image Inpainting WebUI After=network.target [Service] Type=simple User=root WorkingDirectory=/root/cv_fft_inpainting_lama ExecStart=/usr/bin/bash /root/cv_fft_inpainting_lama/start_app.sh Restart=always RestartSec=10 StandardOutput=journal StandardError=journal [Install] WantedBy=multi-user.target EOF sudo systemctl daemon-reload sudo systemctl enable lama-webui sudo systemctl start lama-webui

启用后，服务将随系统自启，崩溃自动重启。

6.2 限制图像尺寸，规避内存溢出

在app.py中找到gr.Interface初始化部分，添加max_size参数：

demo = gr.Interface( fn=inpaint, inputs=[ gr.Image(type="numpy", label="上传图像"), gr.Image(type="numpy", label="掩码图像", visible=False), ], outputs=gr.Image(type="numpy", label="修复结果"), title=" 图像修复系统", examples=examples, # 添加此行限制最大尺寸 css="body { max-width: 1200px; margin: 0 auto; }", )

并在前端JavaScript中增加尺寸校验（assets/custom.js）：

document.addEventListener('DOMContentLoaded', function() { const imgInput = document.querySelector('input[type="file"]'); imgInput.addEventListener('change', function(e) { const file = e.target.files[0]; if (file) { const img = new Image(); img.onload = function() { if (img.width > 2000 || img.height > 2000) { alert(' 图像过大！建议压缩至2000x2000以内'); e.target.value = ''; } }; img.src = URL.createObjectURL(file); } }); });

6.3 定期清理输出目录，防止磁盘占满

添加定时任务自动清理30天前的输出：

# 写入crontab (crontab -l 2>/dev/null; echo "0 3 * * * find /root/cv_fft_inpainting_lama/outputs/ -name \"*.png\" -mtime +30 -delete") | crontab -

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

服务无法启动？常见连接问题排查指南