HoRain云--[特殊字符] 大模型服务容器化部署全流程（Docker Compose 实战版）-开发者社区

# 1. 安装 Docker + Docker Compose curl -fsSL https://get.docker.com | sh sudo systemctl enable --now docker sudo curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose sudo chmod +x /usr/local/bin/docker-compose # 2. 【仅vLLM方案】安装 NVIDIA Container Toolkit（GPU支持） curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker # 3. 验证 docker --version # ≥ 24.0 docker-compose --version # ≥ 2.20 nvidia-smi # GPU方案必现驱动信息

📁 二、项目结构（统一目录规划）

llm-deploy/ ├── docker-compose.ollama.yml # 方案A配置 ├── docker-compose.vllm.yml # 方案B配置（需GPU） ├── .env # 环境变量（可选） ├── models/ # 模型存储（vLLM用） │ └── qwen-7b-chat/ # HF格式模型（提前下载） └── data/ # 持久化数据 ├── ollama/ # Ollama模型缓存 └── openwebui/ # WebUI数据库/配置

🌐 三、方案A：Ollama + Open WebUI（全平台友好）

`docker-compose.ollama.yml`

version: '3.8' services: ollama: image: ollama/ollama:latest container_name: ollama ports: - "11434:11434" volumes: - ./data/ollama:/root/.ollama # 模型持久化 # GPU加速（可选）：取消注释下方两行 # deploy: # resources: # reservations: # devices: # - driver: nvidia # count: all # capabilities: [gpu] restart: unless-stopped healthcheck: test: ["CMD", "curl", "-f", "http://localhost:11434"] interval: 30s timeout: 10s retries: 3 open-webui: image: ghcr.io/open-webui/open-webui:main container_name: open-webui ports: - "3000:8080" volumes: - ./data/openwebui:/app/backend/data environment: - OLLAMA_BASE_URL=http://ollama:11434 # 容器内服务名通信 - WEBUI_AUTH=False # 关闭登录（生产环境建议开启） depends_on: ollama: condition: service_healthy restart: unless-stopped networks: default: name: llm-network

🚀 启动命令

cd llm-deploy docker-compose -f docker-compose.ollama.yml up -d docker-compose -f docker-compose.ollama.yml logs -f # 实时查看日志 # 首次拉取模型（进入Ollama容器执行） docker exec -it ollama ollama pull llama3:8b-instruct-q4_K_M

⚡ 四、方案B：vLLM + Open WebUI（高性能GPU方案）

`docker-compose.vllm.yml`

version: '3.8' services: vllm: image: vllm/vllm-openai:latest container_name: vllm runtime: nvidia # 关键：启用GPU ports: - "8000:8000" volumes: - ./models:/models # 挂载本地HF模型 command: > --model /models/qwen-7b-chat --port 8000 --tensor-parallel-size 1 --dtype auto --max-model-len 4096 environment: - NVIDIA_VISIBLE_DEVICES=all deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] restart: unless-stopped open-webui: image: ghcr.io/open-webui/open-webui:main container_name: open-webui ports: - "3000:8080" volumes: - ./data/openwebui:/app/backend/data environment: - OPENAI_API_BASE=http://vllm:8000/v1 - OPENAI_API_KEY=sk-vllm-key # vLLM无需验证，但WebUI需占位符 - WEBUI_AUTH=False depends_on: - vllm restart: unless-stopped networks: default: name: llm-network

📥 模型准备（宿主机执行）

# 安装huggingface-hub（宿主机） pip install huggingface-hub # 下载模型到 ./models/qwen-7b-chat huggingface-cli download Qwen/Qwen-7B-Chat --local-dir ./models/qwen-7b-chat --local-dir-use-symlinks False

🚀 启动命令

cd llm-deploy docker-compose -f docker-compose.vllm.yml up -d docker logs -f vllm # 观察模型加载进度（首次较慢）

🔍 五、验证与访问

项目	地址	验证方式
Open WebUI	http://localhost:3000	浏览器打开，自动加载模型列表
Ollama API	http://localhost:11434/api/tags	`curl http://localhost:11434/api/tags`
vLLM API	http://localhost:8000/v1/models	`curl http://localhost:8000/v1/models`
健康检查	`docker-compose ps`	所有服务状态为 Up

✅成功标志：Open WebUI 界面中 → 设置 → 模型 → 可见可用模型列表

🛠️ 六、运维锦囊

常用命令

# 停止服务 docker-compose -f docker-compose.xxx.yml down # 重建服务（配置修改后） docker-compose -f docker-compose.xxx.yml up -d --force-recreate # 清理无用镜像/卷 docker system prune -a docker volume prune # 查看GPU使用 docker stats --no-stream # 观察vllm容器GPU内存

⚠️ 高频问题解决

问题	解决方案
Open WebUI 找不到模型	检查环境变量拼写（`OLLAMA_BASE_URL`vs`OPENAI_API_BASE`）；确认容器网络互通（`docker network inspect llm-network`）
vLLM 启动报 CUDA error	确认`nvidia-container-toolkit`安装成功；执行`docker run --rm --gpus all nvidia/cuda:12.2-base nvidia-smi`验证
模型下载慢	使用 HF 镜像：`export HF_ENDPOINT=https://hf-mirror.com`
端口冲突	修改 yml 中 ports 的宿主机端口（如 3001:8080）
WSL2 无法访问	Windows 防火墙放行端口；浏览器用`http://<WSL_IP>:3000`（`ip addr show eth0`查IP）

💡 进阶建议

安全加固：
- 启用WEBUI_AUTH=True+ 设置账号密码
- 用 Nginx 反向代理 + HTTPS（Let's Encrypt）
- 限制 API 访问 IP（防火墙规则）
生产部署：
- 使用docker-compose.prod.yml+ Traefik 做负载均衡
- 模型存储挂载 NAS/S3
- 集成 Prometheus 监控 GPU/内存
混合后端：
在 Open WebUI 中为不同模型指定不同提供者（设置 → 模型 → 自定义提供者），实现 Ollama 小模型 + vLLM 大模型协同

✅现在执行：

git clone https://github.com/your-repo/llm-deploy-template.git # 可选：使用模板仓库 cd llm-deploy && docker-compose -f docker-compose.ollama.yml up -d

5 分钟后，打开浏览器 →http://localhost:3000→ 开始对话！
遇到问题？提供docker-compose logs open-webui截图，我可精准诊断 🌟

❤️❤️❤️本人水平有限，如有纰漏，欢迎各位大佬评论批评指正！😄😄😄
💘💘💘如果觉得这篇文对你有帮助的话，也请给个点赞、收藏下吧，非常感谢!👍 👍 👍
🔥🔥🔥Stay Hungry Stay Foolish 道阻且长,行则将至,让我们一起加油吧！🌙🌙🌙

‌智慧校园服务承诺：以快速响应与高效解决为核心‌

HoRain云--[特殊字符] 大模型服务容器化部署全流程（Docker Compose 实战版）

⛳️ 推荐

🐳 大模型服务容器化部署全流程（Docker Compose 实战版）

🔧 一、环境准备（5分钟）

📁 二、项目结构（统一目录规划）

🌐 三、方案A：Ollama + Open WebUI（全平台友好）

`docker-compose.ollama.yml`

🚀 启动命令

⚡ 四、方案B：vLLM + Open WebUI（高性能GPU方案）

`docker-compose.vllm.yml`

📥 模型准备（宿主机执行）

🚀 启动命令

🔍 五、验证与访问

🛠️ 六、运维锦囊

常用命令

⚠️ 高频问题解决

💡 进阶建议

Moto 家庭空间太实用！家人共享、安全守护，一部手机搞定家庭协同

智慧果园苹果病虫害检测系统（YOLO + DeepSeek 双模型 Web 管理系统） YOLO+Deepseek双模型web管理系统 YOLOV8结合deepseek大模型

SEW变频器MDX61B0300-503-04-00 8279667

C++多文件编译：告别“一锅炖”，让代码管理更优雅

每日面试题分享177:JVM的内存区域是如何划分的？