Lychee-Rerank-MM部署教程：从服务器IP直连7860端口到生产环境Nginx反向代理-开发者社区

Lychee-Rerank-MM部署教程：从服务器IP直连7860端口到生产环境Nginx反向代理

你是不是也遇到过这样的问题：图文检索系统初筛结果很多，但相关性排序总不够精准？人工调规则费时费力，传统文本重排模型又看不懂图片。今天这篇教程，不讲理论、不堆参数，就带你把哈工大深圳NLP团队开源的Lychee多模态重排序模型真正跑起来——从本地调试到生产上线，一步到位。

这不是一个“能跑就行”的Demo，而是一套经过验证、可直接用于业务服务的完整部署路径。我们会从最基础的服务器直连开始，手把手配置Nginx反向代理、添加HTTPS支持、设置健康检查，并解决GPU显存不足、模型加载失败、跨域访问等真实生产中高频踩坑点。无论你是刚接触多模态的算法工程师，还是负责AI服务落地的后端同学，都能照着操作，15分钟内让服务稳定对外提供API。

1. 先搞懂它到底能做什么

Lychee-Rerank-MM不是另一个“看起来很美”的研究模型，而是一个专为图文混合检索精排设计的实用工具。它的核心价值，是帮你把“粗筛后的几十条结果”，按真实相关性重新打分排序——而且这个过程同时理解文字和图片。

比如你在做电商搜索，用户上传一张“蓝色连衣裙”照片，系统返回了20款裙子，但其中3款其实是红色或长裤。Lychee能看懂这张图+商品标题+详情页图文，给出更准的相关性得分（0~1之间），把真正匹配的那几款顶到前面。

它基于Qwen2.5-VL-7B-Instruct微调而来，实际参数量约8.29B，用BF16精度运行，在16GB显存的A10/A100上就能稳稳跑起来。服务默认监听7860端口，启动后既可通过http://localhost:7860本地访问，也能直接用服务器公网IP加端口调用——这是它和很多只支持Gradio界面的模型最大的不同：天生为API服务而生。

2. 三步完成基础部署：从零到可调用

2.1 环境准备：别跳过这一步，90%的问题出在这儿

Lychee对环境要求明确，但并不苛刻。我们推荐在干净的Ubuntu 22.04系统上操作（CentOS 7/8也可，但需额外处理Python 3.8+依赖）：

GPU显存：必须≥16GB（实测A10单卡完全够用；若只有12GB如3090，需改max_length=2048并关闭Flash Attention）
Python版本：3.8～3.11（推荐3.10，兼容性最好）
模型路径：严格固定为/root/ai-models/vec-ai/lychee-rerank-mm（注意不是项目代码目录！）

执行前先确认关键依赖是否就位：

# 检查Python和PyTorch python3 --version # 应输出 3.10.x python3 -c "import torch; print(torch.__version__)" # 应输出 ≥2.0.0，且cuda可用 # 检查模型路径是否存在（重点！） ls -l /root/ai-models/vec-ai/lychee-rerank-mm # 正常应看到 config.json, pytorch_model.bin, model.safetensors 等文件

如果ls报错“没有那个文件”，说明模型没下载好。别急着重下，先用ModelScope命令行快速拉取：

pip install modelscope python3 -c " from modelscope import snapshot_download snapshot_download('vec-ai/lychee-rerank-mm', cache_dir='/root/ai-models') "

2.2 启动服务：三种方式，按需选择

项目已预置start.sh脚本，优先推荐使用。它会自动检测CUDA、设置环境变量、启用Flash Attention加速：

cd /root/lychee-rerank-mm chmod +x start.sh ./start.sh

如果你需要自定义参数（比如限制最大上下文长度），可直接运行app.py：

# 启用BF16 + Flash Attention + 最大长度2560 python app.py --bf16 --flash_attn --max_length 2560

注意：不要用nohup python app.py &后台启动后就不管了！它不会自动重载配置，且日志不易追踪。生产环境请务必用systemd或supervisor管理进程。

2.3 验证服务：用curl发个真实请求试试

服务启动成功后，终端会显示类似Running on http://0.0.0.0:7860。现在用服务器IP直连测试：

# 替换为你的服务器公网IP curl -X POST "http://YOUR_SERVER_IP:7860/rerank" \ -H "Content-Type: application/json" \ -d '{ "instruction": "Given a web search query, retrieve relevant passages that answer the query", "query": "What is the capital of China?", "documents": ["The capital of China is Beijing.", "China has many large cities like Shanghai and Guangzhou."] }'

预期返回：

{"scores":[0.9523,0.3178]}

如果返回Connection refused，检查防火墙是否放行7860端口：

ufw allow 7860 # Ubuntu # 或临时关闭防火墙测试 ufw disable

3. 进阶配置：Nginx反向代理上线生产环境

直接暴露7860端口给公网？不行。没有HTTPS？不安全。无法负载均衡？不健壮。下面这套Nginx配置，是我们在多个客户环境验证过的最小可行生产方案。

3.1 安装与基础配置

Ubuntu上一键安装Nginx：

apt update && apt install nginx -y systemctl enable nginx

创建配置文件/etc/nginx/conf.d/lychee.conf：

upstream lychee_backend { server 127.0.0.1:7860; # 如需负载均衡，可加多台：server 127.0.0.1:7861; } server { listen 80; server_name rerank.yourdomain.com; # 替换为你的域名 # HTTP自动跳转HTTPS（启用SSL后取消注释） # return 301 https://$server_name$request_uri; location / { proxy_pass http://lychee_backend; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; # 关键：透传大请求体（图文混合请求可能超默认1M） client_max_body_size 50M; # 超时设置（图文推理比纯文本慢，留足时间） proxy_connect_timeout 300; proxy_send_timeout 300; proxy_read_timeout 300; } }

测试配置并重载：

nginx -t && systemctl reload nginx

此时访问http://rerank.yourdomain.com，应看到Gradio UI界面（或API返回正常）。

3.2 添加HTTPS：用Certbot免费搞定

apt install certbot python3-certbot-nginx -y certbot --nginx -d rerank.yourdomain.com

Certbot会自动修改Nginx配置，添加SSL证书和HTTP→HTTPS重定向。完成后，所有请求都走https://rerank.yourdomain.com，安全性和SEO都达标。

3.3 加一道健康检查：让运维心里有底

在Nginx配置的upstream块中加入健康检查（需安装nginx-plus-module-healthcheck或使用开源版nginx-upstream-check-module）。更轻量的做法是：在location /healthz加一个简单端点。

修改app.py，在FastAPI实例中添加：

@app.get("/healthz") def health_check(): return {"status": "ok", "model": "lychee-rerank-mm-7B", "gpu": torch.cuda.is_available()}

然后在Nginx中新增路由：

location /healthz { proxy_pass http://lychee_backend; proxy_set_header Host $host; }

这样，运维可用curl https://rerank.yourdomain.com/healthz随时检查服务状态，K8s探针或Zabbix监控也能直接接入。

4. 实战技巧：避开那些没人告诉你的坑

4.1 GPU显存爆了？别急着换卡，试试这三招

第一招：关Flash Attention
启动时加--no_flash_attn参数，显存占用立降20%，速度略慢但稳定。
第二招：调小max_length
默认3200对图文太奢侈。电商场景2048足够，新闻摘要1536即可。显存省30%，速度提15%。
第三招：用--cpu_offload（仅限低配）
python app.py --cpu_offload把部分层卸载到内存，12GB显存也能跑，但延迟增加约40%。

4.2 跨域问题？前端调用403？两行代码解决

如果你的Web前端要直接调用该API（非同域），默认会被浏览器拦截。不用改前端，只需在Nginx配置的location /块里加：

add_header 'Access-Control-Allow-Origin' '*'; add_header 'Access-Control-Allow-Methods' 'GET, POST, OPTIONS'; add_header 'Access-Control-Allow-Headers' 'DNT,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,Range,Authorization';

生产环境慎用*，应替换为具体前端域名如https://your-app.com

4.3 批量重排卡住？检查文档格式

Lychee批量模式要求文档数组每项必须是字符串，不能是对象。错误示例：

"documents": [{"text": "abc"}, {"image": "base64..."}] // 错误！

正确写法：

"documents": ["abc", "data:image/png;base64,iVBOR..."] // 正确！

5. 性能实测：它到底有多快、多准？

我们在A10服务器（24G显存）上做了真实压力测试，对比单文档与批量模式：

场景	输入	平均响应时间	QPS	显存占用
单文档（T→T）	文本查询+1文本	320ms	3.1	14.2G
单文档（T→I）	文本查询+1图片（1024x768）	890ms	1.1	15.8G
批量（10文档）	文本查询+10文本	1150ms	8.7	14.5G