DeepSeek-R1-Distill-Qwen-1.5B部署教程：Jupyter Notebook集成方法-开发者社区

DeepSeek-R1-Distill-Qwen-1.5B部署教程：Jupyter Notebook集成方法

1. 引言

1.1 本地大模型部署的现实需求

随着大语言模型在各类应用场景中的广泛落地，越来越多开发者和企业开始关注轻量化、可本地化部署的高性能模型。尤其是在边缘设备、嵌入式系统或资源受限环境中，如何在有限算力下实现接近大模型的推理能力，成为工程实践中的关键挑战。

DeepSeek-R1-Distill-Qwen-1.5B 正是在这一背景下应运而生的“小钢炮”级模型。它通过知识蒸馏技术，将 DeepSeek R1 的强大推理链能力压缩至仅 1.5B 参数的 Qwen 架构中，在保持极低资源消耗的同时，实现了远超同体量模型的数学与代码理解能力。

1.2 为什么选择 DeepSeek-R1-Distill-Qwen-1.5B？

该模型具备以下核心优势：

性能强劲：MATH 数据集得分 80+，HumanEval 超过 50%，推理链保留度达 85%。
资源友好：FP16 模型仅需 3 GB 显存，GGUF-Q4 量化后低至 0.8 GB，可在树莓派、手机甚至 RK3588 等嵌入式平台运行。
商用免费：采用 Apache 2.0 协议，支持商业用途，无版权风险。
生态完善：已集成 vLLM、Ollama、Jan 等主流推理框架，支持一键启动。

本文将重点介绍如何基于vLLM + Open WebUI构建完整的对话服务，并进一步实现与Jupyter Notebook的无缝集成，打造一个集交互式编程、AI 辅助开发于一体的本地化智能开发环境。

2. 环境准备与基础部署

2.1 硬件与软件要求

项目	推荐配置
GPU 显存	≥6 GB（FP16），≥4 GB（GGUF 量化）
CPU	x86_64 或 ARM64（如 M1/M2 Mac、RK3588）
内存	≥8 GB RAM
操作系统	Ubuntu 20.04+/macOS 12+/Windows WSL2
Python 版本	≥3.10
CUDA	12.1（NVIDIA 用户）

提示：若使用 Apple Silicon 芯片，推荐使用 llama.cpp + GGUF 量化版本以获得最佳性能。

2.2 安装依赖组件

首先创建独立虚拟环境并安装必要库：

python -m venv deepseek-env source deepseek-env/bin/activate # Linux/macOS # 或 deepseek-env\Scripts\activate (Windows) pip install --upgrade pip pip install vllm open-webui jupyter notebook

注意：vLLM目前不支持 Windows 原生环境，建议使用 WSL2 或 Linux 系统。

2.3 下载模型文件

官方提供多个格式版本，可根据硬件选择：

FP16（vLLM 推荐）：bash huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --local-dir ./models/deepseek-r1-qwen-1.5b-fp16
GGUF-Q4（低显存设备推荐）：bash wget https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/resolve/main/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf -O ./models/deepseek-r1-qwen-1.5b.Q4_K_M.gguf

3. 启动 vLLM 服务与 Open WebUI 集成

3.1 使用 vLLM 加载 FP16 模型

进入模型目录后启动 API 服务：

cd models/deepseek-r1-qwen-1.5b-fp16 python -m vllm.entrypoints.openai.api_server \ --model ./ \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --dtype half \ --max-model-len 4096

成功启动后，将在http://localhost:8000提供 OpenAI 兼容接口。

3.2 部署 Open WebUI 实现可视化对话界面

Open WebUI 是一个轻量级前端工具，支持连接本地 LLM API。

安装并配置 Open WebUI

docker pull ghcr.io/open-webui/open-webui:main docker run -d \ --name open-webui \ -p 7860:8080 \ -e OPENAI_API_BASE=http://host.docker.internal:8000/v1 \ -v open-webui-data:/app/backend/data \ --add-host=host.docker.internal:host-gateway \ --restart always \ ghcr.io/open-webui/open-webui:main

注意：host.docker.internal用于 Docker 容器访问宿主机上的 vLLM 服务。

登录与测试

等待服务启动完成后，访问http://localhost:7860，输入演示账号信息：

邮箱：kakajiang@kakajiang.com
密码：kakajiang

即可进入图形化聊天界面，进行多轮对话、函数调用、JSON 输出等高级功能测试。

4. Jupyter Notebook 集成方案

4.1 修改端口映射实现共存

默认情况下，Jupyter Notebook 使用8888端口，而 Open WebUI 使用7860。为在同一机器上同时运行两者，需调整 Jupyter 的启动参数。

启动 Jupyter 并绑定到 7860 端口

jupyter notebook --ip=0.0.0.0 --port=7860 --no-browser --allow-root

此时可通过http://<your-ip>:7860访问 Jupyter，但会与 Open WebUI 冲突。因此建议采用反向代理分流策略。

4.2 使用 Nginx 实现端口分流（推荐）

安装 Nginx 并配置路由规则：

server { listen 80; location /webui/ { proxy_pass http://127.0.0.1:7860/; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; } location /jupyter/ { proxy_pass http://127.0.0.1:8888/; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; } }

重启 Nginx 后：

访问http://localhost/webui→ Open WebUI
访问http://localhost/jupyter→ Jupyter Notebook

实现统一入口下的多服务共存。

4.3 在 Jupyter 中调用本地大模型 API

在 Notebook 单元格中使用openai兼容客户端请求模型服务：

from openai import OpenAI # 指向本地 vLLM 服务 client = OpenAI( base_url="http://localhost:8000/v1", api_key="EMPTY" # vLLM 不需要真实密钥 ) response = client.chat.completions.create( model="deepseek-r1-distill-qwen-1.5b", messages=[ {"role": "user", "content": "请帮我解这个方程：x^2 - 5x + 6 = 0"} ], temperature=0.7, max_tokens=512 ) print(response.choices[0].message.content)

输出示例：

这是一个一元二次方程，我们可以使用因式分解法来求解： x² - 5x + 6 = 0 → (x - 2)(x - 3) = 0 所以解为：x = 2 或 x = 3。

✅ 成功实现 AI 数学推理辅助！

5. 性能优化与进阶技巧

5.1 降低显存占用：启用 PagedAttention

vLLM 默认启用 PagedAttention 技术，显著提升长序列处理效率。可通过参数微调进一步优化：

--enable-prefix-caching \ --scheduling-policy fcfs \ --max-num-seqs 16 \ --max-num-batched-tokens 4096

适用于高并发场景下的吞吐优化。

5.2 移动端与嵌入式部署建议

对于树莓派、RK3588 等 ARM 设备，推荐使用llama.cpp + GGUF 量化模型：

./main -m ./models/deepseek-r1-qwen-1.5b.Q4_K_M.gguf \ -p "你的问题" \ --temp 0.7 \ --n_predict 512 \ --threads 8

实测在 RK3588 上完成 1k token 推理仅需约 16 秒，满足离线助手需求。

5.3 函数调用与 Agent 插件开发

该模型支持结构化输出，可用于构建本地 Agent 应用。例如定义工具 schema：

{ "name": "get_weather", "description": "获取指定城市的天气信息", "parameters": { "type": "object", "properties": { "city": {"type": "string"} }, "required": ["city"] } }

结合 LangChain 或 LlamaIndex 可快速搭建具备外部能力的智能体系统。

6. 总结

6.1 核心价值回顾

DeepSeek-R1-Distill-Qwen-1.5B 是当前极具性价比的轻量级推理模型，其特点可归纳为：

小体积大能量：1.5B 参数跑出 7B 级别表现，尤其擅长数学与代码任务。
低门槛易部署：支持 vLLM、Ollama、llama.cpp 多种方式，覆盖从服务器到边缘设备的全场景。
开放可商用：Apache 2.0 协议授权，适合企业产品集成。
高效推理速度：RTX 3060 上可达 200 tokens/s，A17 芯片上超过 120 tokens/s。

6.2 最佳实践建议

本地开发辅助：将模型接入 Jupyter，实现代码自动补全、错误诊断、算法解释等功能。
私有化客服机器人：结合 Open WebUI 快速搭建无需联网的智能问答系统。
教育领域应用：作为数学辅导助手，帮助学生理解复杂题目的解题过程。
嵌入式智能终端：部署于工业控制板卡或移动设备，提供离线 AI 支持。

通过本文介绍的 vLLM + Open WebUI + Jupyter 三位一体架构，开发者可以轻松构建一个功能完整、响应迅速、安全可控的本地大模型应用体系。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek-R1-Distill-Qwen-1.5B部署教程：Jupyter Notebook集成方法