news 2026/4/18 6:37:15

DeepSeek容器化部署(vLLM+Open WebUI)魔搭模型版

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek容器化部署(vLLM+Open WebUI)魔搭模型版

一、环境准备

前提:服务器已安装NVIDIA GPU驱动,系统为Ubuntu 20.04。

1. 安装Docker

curl-fsSLhttps://download.docker.com/linux/ubuntu/gpg|sudogpg--dearmor-o/usr/share/keyrings/docker-archive-keyring.gpgecho"deb [arch=$(dpkg --print-architecture)signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu focal stable"|sudotee/etc/apt/sources.list.d/docker.list>/dev/nullaptupdateaptinstall-ydocker-ce docker-ce-cli containerd.io systemctl startdockersystemctlenabledocker

2. 安装NVIDIA-Docker

distribution=$(./etc/os-release;echo$ID$VERSION_ID)curl-s-Lhttps://nvidia.github.io/nvidia-docker/gpgkey|sudoapt-keyadd-curl-s-Lhttps://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list|sudotee/etc/apt/sources.list.d/nvidia-docker.listapt-getupdateapt-getinstall-ynvidia-docker2 systemctl restartdocker

二、魔搭社区下载模型(ModelScope)

1. 安装ModelScope工具

pipinstallmodelscope

2. 下载Qwen3-8B模型(自定义路径)

modelscope download--modelQwen/Qwen3-8B--local_dir/hy-tmp/models/deepseek/

模型将保存到:/hy-tmp/models/deepseek/,后续容器直接挂载此路径。


三、拉取Docker镜像

# 拉取Open WebUI(CUDA版)dockerpull ghcr.io/open-webui/open-webui:cuda# 拉取vLLM推理镜像dockerpull vllm/vllm-openai

四、启动vLLM容器(挂载魔搭模型)

dockerrun-d\--gpusall\--restartunless-stopped\--namedeepseek-container\--networkhost\-v/hy-tmp/models/deepseek:/model\vllm/vllm-openai:latest\--model/model\--served-model-name qwen3-8b\--dtypehalf\--api-key OPENWEBUI123

关键说明:

  • -v /hy-tmp/models/deepseek:/model:挂载魔搭下载的模型路径
  • --served-model-name qwen3-8b:自定义服务模型名
  • --api-key OPENWEBUI123:接口密钥(WebUI需保持一致)

五、启动Open WebUI容器

dockerrun-d\--nameopenwebui-container\--networkhost\--gpusall\-eOPENAI_API_BASE_URL=http://localhost:8000/v1\-eOPENAI_API_KEYS=OPENWEBUI123\-eUSE_CUDA_DOCKER=true\ghcr.io/open-webui/open-webui:cuda

六、验证与访问

  1. 检查容器状态:
dockerps
  1. 浏览器访问Open WebUI:
http://服务器IP:8080
  1. 首次访问创建管理员账号,即可选择qwen3-8b模型对话。

七、常见参数说明

参数作用
--gpus all容器调用全部GPU
--network host复用主机网络,端口直通
-v 本地路径:容器路径模型目录挂载
--dtype halfFP16精度,降低显存占用
--api-key接口鉴权密钥
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 11:42:22

Alibi Detect高级特性:深度学习模型集成与不确定性估计

Alibi Detect高级特性:深度学习模型集成与不确定性估计 【免费下载链接】alibi-detect Algorithms for outlier, adversarial and drift detection 项目地址: https://gitcode.com/gh_mirrors/al/alibi-detect Alibi Detect是一个强大的开源库,专…

作者头像 李华
网站建设 2026/4/14 11:41:40

手写 Vue 3 的 ref 实现:从零开始理解响应式核心

手写 Vue 3 的 ref 实现:从零开始理解响应式核心 在 Vue 3 的组合式 API(Composition API)中,ref 无疑是最基础也是最核心的 API 之一。它不仅是原始类型数据(如 number、string)实现响应式的唯一途径&…

作者头像 李华
网站建设 2026/4/14 11:41:12

智能体总控平台:架构设计、技术实现与应用场景解析

智能体总控平台:架构设计、技术实现与应用场景解析2026年,AI Agent正从“概念玩具”迈向企业级“数字员工”的规模化落地。Gartner预测,到2026年底全球超过30%的企业核心流程将由AI Agents辅助或主导。在这一浪潮中,智能体总控平台…

作者头像 李华
网站建设 2026/4/14 11:41:12

ChatTTS作品集展示:多种音色演绎不同情绪表达

ChatTTS作品集展示:多种音色演绎不同情绪表达 “它不仅是在读稿,它是在表演。” 如果你还在寻找一款能“开口说话”的AI语音工具,那么ChatTTS可能会让你彻底改变对语音合成的看法。它不像传统的TTS那样机械地朗读文字,而是像一个真…

作者头像 李华
网站建设 2026/4/14 11:38:27

如何快速解锁《鸣潮》120帧:完整使用WaveTools工具箱指南

如何快速解锁《鸣潮》120帧:完整使用WaveTools工具箱指南 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 如果你正在玩《鸣潮》这款热门开放世界游戏,却因为60帧的锁帧限制而感到画…

作者头像 李华
网站建设 2026/4/14 11:37:37

Llama-3.2V-11B-cot图文推理教程:支持多轮追问与上下文记忆的实测

Llama-3.2V-11B-cot图文推理教程:支持多轮追问与上下文记忆的实测 1. 工具概览 Llama-3.2V-11B-cot是一款基于Meta多模态大模型开发的高性能视觉推理工具,专为双卡4090环境优化。它解决了传统大模型部署中的常见痛点,让普通用户也能轻松体验…

作者头像 李华