vLLM+ERNIE-4.5-0.3B-PT教程：如何通过API网关统一管理多个ERNIE模型服务-开发者社区

vLLM+ERNIE-4.5-0.3B-PT教程：如何通过API网关统一管理多个ERNIE模型服务

1. 为什么需要统一管理多个ERNIE模型服务

你有没有遇到过这样的情况：团队里同时跑着几个不同版本的ERNIE模型——有的在做客服问答，有的在写营销文案，还有的在处理内部文档摘要。每个模型都用不同的方式部署，有的直接暴露HTTP端口，有的套了Nginx反向代理，有的甚至还在本地调试……结果就是：接口地址五花八门、鉴权方式不统一、调用量没法统计、出问题时连日志都找不到在哪看。

这正是我们今天要解决的问题。本文不讲大道理，也不堆砌架构图，而是带你用最轻量、最实用的方式，把多个ERNIE模型（比如ERNIE-4.5-0.3B-PT、ERNIE-4.5-1B-Chat等）全部收拢到一个API网关下，实现：

所有模型共用同一个域名和基础路径（如https://api.yourdomain.com/v1/chat/completions）
统一身份验证（API Key）、流量控制、请求审计
模型切换只需改一个参数（model=ernie-4.5-0.3b-pt），前端完全无感
零代码改造已有vLLM服务，只加一层轻量网关

整个过程不需要动模型代码、不重写推理逻辑、不升级GPU驱动——你只需要会敲几条命令，就能把散落的模型“串成一条链”。

2. 环境准备与核心组件说明

2.1 你将用到的三个关键角色

组件	作用	本教程中版本
vLLM	高性能大模型推理引擎，负责加载ERNIE-4.5-0.3B-PT并提供OpenAI兼容API	`vllm==0.6.3`
ERNIE-4.5-0.3B-PT	百度开源的轻量级ERNIE MoE文本生成模型，专为快速响应和低显存部署优化	HuggingFace格式，已适配vLLM
API网关（FastAPI + LiteLLM Proxy）	轻量级统一入口，不做模型推理，只做路由、鉴权、日志、限流	`litellm[proxy]==1.52.0`

注意：本文不涉及模型训练、权重转换或PaddlePaddle环境搭建。所有操作均基于已预装vLLM镜像的CSDN星图环境（如你使用其他平台，请确保Python 3.10+、CUDA 12.1+、vLLM可正常运行）。

2.2 快速确认你的环境是否就绪

打开WebShell，执行以下命令检查基础服务状态：

# 查看vLLM服务日志（确认ERNIE-4.5-0.3B-PT是否已加载） cat /root/workspace/llm.log | grep -i "running" | tail -3

如果看到类似输出：

INFO 01-26 14:22:37 [engine.py:321] Running model 'ernie-4.5-0.3b-pt' with 4 GPUs INFO 01-26 14:22:42 [http_server.py:189] Started server on http://0.0.0.0:8000

说明模型服务已在http://localhost:8000启动成功，端口未被占用，可进入下一步。

3. 部署统一API网关（三步完成）

3.1 安装LiteLLM Proxy（替代传统Nginx/Kong）

LiteLLM Proxy是目前最轻量、最贴合AI场景的API网关方案——它原生支持OpenAI格式，无需配置复杂路由规则，一行命令即可启动：

# 安装（已预装可跳过） pip install litellm[proxy] # 创建网关配置文件 cat > /root/workspace/gateway_config.yaml << 'EOF' model_list: - model_name: ernie-4.5-0.3b-pt litellm_params: model: vllm/ernie-4.5-0.3b-pt api_base: http://localhost:8000/v1 api_key: "sk-xxx" # vLLM默认无鉴权，此处仅为兼容格式，可留空 - model_name: ernie-4.5-1b-chat litellm_params: model: vllm/ernie-4.5-1b-chat api_base: http://localhost:8001/v1 api_key: "sk-xxx" litellm_settings: drop_params: true # 自动忽略vLLM不支持的OpenAI参数（如logit_bias） num_retries: 1 EOF

小贴士：model_name是你对外暴露的模型名（如调用时传model=ernie-4.5-0.3b-pt），api_base指向对应vLLM服务地址。多个模型只需在此处追加- model_name: ...即可。

3.2 启动网关服务（监听8002端口）

# 后台启动网关（自动读取gateway_config.yaml） nohup litellm --config /root/workspace/gateway_config.yaml --port 8002 > /root/workspace/gateway.log 2>&1 & # 检查是否启动成功 curl -s http://localhost:8002/health | jq .status # 应返回：{"status":"healthy"}

此时，你的统一入口已就绪：
所有模型请求走http://localhost:8002/v1/chat/completions
请求头带Authorization: Bearer sk-xxx（网关校验，非vLLM校验）
请求体中指定model: "ernie-4.5-0.3b-pt"即可路由到对应服务

3.3 验证网关路由是否生效

用一条curl命令测试ERNIE-4.5-0.3B-PT是否能通过网关调用：

curl http://localhost:8002/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer sk-123" \ -d '{ "model": "ernie-4.5-0.3b-pt", "messages": [{"role": "user", "content": "用一句话介绍ERNIE模型"}], "max_tokens": 128 }' | jq -r '.choices[0].message.content'

如果返回类似"ERNIE（Enhanced Representation through kNowledge IntEgration）是百度研发的预训练语言模型..."，说明网关已成功将请求转发至vLLM，并拿到响应。

4. Chainlit前端对接网关（零代码修改）

4.1 修改Chainlit配置，指向统一网关

Chainlit默认连接的是vLLM原生地址（http://localhost:8000），现在只需改一个地方：

# 编辑Chainlit配置文件 sed -i 's|http://localhost:8000|http://localhost:8002|g' /root/workspace/chainlit_app.py

查看修改效果（关键行）：

# 原来是： LLM_API_BASE = "http://localhost:8000/v1" # 修改后变为： LLM_API_BASE = "http://localhost:8002/v1" # 指向网关

4.2 启动Chainlit并测试多模型切换

# 重启Chainlit（若已在运行，先kill进程） pkill -f "chainlit run" chainlit run /root/workspace/chainlit_app.py -w &

打开浏览器访问http://<your-server-ip>:8000，你会看到熟悉的界面。现在尝试：

输入提问：“写一首关于春天的七言绝句”
在侧边栏选择模型：ernie-4.5-0.3b-pt→ 点击发送
再次提问相同内容，但切换模型为ernie-4.5-1b-chat（如果你部署了该模型）

你会发现：
🔹 前端UI完全不变，无需刷新页面
🔹 响应速度一致（网关无额外延迟）
🔹 所有请求日志统一记录在/root/workspace/gateway.log中

这就是统一网关的价值——对用户透明，对运维友好。

5. 实用技巧与避坑指南

5.1 如何给不同模型设置不同限流策略

网关支持按模型名精细化控制QPS。例如，让ERNIE-4.5-0.3B-PT允许每秒5次请求，而ERNIE-4.5-1B-Chat限制为2次：

# 编辑gateway_config.yaml，在对应model下添加： - model_name: ernie-4.5-0.3b-pt litellm_params: model: vllm/ernie-4.5-0.3b-pt api_base: http://localhost:8000/v1 # 新增限流配置 tpm: 15000 # 每分钟总token数上限 rpm: 300 # 每分钟请求数上限

效果：当某用户连续高频调用ernie-4.5-0.3b-pt时，网关自动返回429 Too Many Requests，无需vLLM参与判断。

5.2 如何查看实时调用统计（不用翻日志）

LiteLLM Proxy内置Prometheus指标，开箱即用：

# 访问监控页（需在服务器上执行） curl http://localhost:8002/metrics | grep "litellm_request_total" # 输出示例： # litellm_request_total{model="ernie-4.5-0.3b-pt",status="success"} 42 # litellm_request_total{model="ernie-4.5-1b-chat",status="failed"} 3

配合Grafana可快速搭建可视化看板，监控各模型成功率、延迟、错误类型。

5.3 常见问题速查

现象	可能原因	解决方法
Chainlit报错`Connection refused`	网关未启动或端口被占	`lsof -i :8002`查进程，`kill -9 <pid>`后重启
调用返回`400 Bad Request`	请求体中`model`名与网关配置不一致	检查`gateway_config.yaml`中`model_name`是否拼写正确
响应极慢且日志无报错	vLLM服务内存不足导致OOM	`nvidia-smi`查GPU显存，降低`--max-model-len 2048`参数
网关日志显示`Route not found`	请求路径不是`/v1/chat/completions`	确保Chainlit或curl调用的是标准OpenAI路径