零基础入门：用DeepSeek-R1-Distill-Qwen-1.5B快速搭建本地AI对话应用-开发者社区

零基础入门：用DeepSeek-R1-Distill-Qwen-1.5B快速搭建本地AI对话应用

1. 引言：为什么选择 DeepSeek-R1-Distill-Qwen-1.5B？

在当前大模型动辄数十亿、上百亿参数的背景下，部署成本高、硬件门槛严苛成为普通开发者和边缘设备用户的现实障碍。而DeepSeek-R1-Distill-Qwen-1.5B的出现，打破了“小模型=弱能力”的固有认知。

这是一款由 DeepSeek 使用 80 万条 R1 推理链样本对 Qwen-1.5B 进行知识蒸馏得到的轻量级高性能模型。尽管仅有15 亿参数（1.5B），却能在 MATH 数据集上取得80+ 分的优异成绩，在 HumanEval 上达到50+ 分，推理链保留度高达85%，堪称“小钢炮”。

更重要的是，它具备以下优势：

低显存需求：FP16 模型仅需 3GB 显存，GGUF-Q4 量化版本更是压缩至0.8GB，可在树莓派、手机、RK3588 等嵌入式设备运行。
高推理速度：RTX 3060 上可达 200 tokens/s，A17 芯片量化版达 120 tokens/s。
完整功能支持：支持 4K 上下文、JSON 输出、函数调用与 Agent 插件扩展。
商用友好：采用 Apache 2.0 协议，可免费用于商业项目。

本文将带你从零开始，使用 vLLM + Open WebUI 快速搭建一个基于 DeepSeek-R1-Distill-Qwen-1.5B 的本地 AI 对话应用，无需复杂配置，适合新手快速上手。

2. 环境准备与依赖安装

2.1 基础环境要求

为确保顺利部署，请确认你的系统满足以下最低要求：

组件	推荐配置
操作系统	Ubuntu 20.04/22.04 或 macOS 12+
GPU 显存	≥6GB（推荐 NVIDIA RTX 3060 及以上）或 CPU 部署（GGUF）
内存	≥8GB
存储空间	≥5GB（含模型文件）
Python 版本	3.10 或以上

提示：若无独立 GPU，可选择 GGUF 量化模型通过 llama.cpp 在 CPU 上运行，适用于 Mac M1/M2 或树莓派等 ARM 设备。

2.2 安装 Ollama（可选方式之一）

Ollama 是目前最简便的本地大模型管理工具，支持一键拉取、创建和运行模型。我们先通过它完成模型加载。

# 下载并安装 Ollama curl -fsSL https://ollama.com/install.sh | sh

安装完成后，可通过systemctl管理其后台服务（Linux 用户）：

systemctl status ollama.service # 查看状态 systemctl start ollama.service # 启动服务

3. 模型下载与本地加载

由于 Hugging Face 国内访问受限，建议使用国内镜像站加速下载。

3.1 创建工作目录并克隆模型

mkdir -p DeepSeek-R1-Distill-Qwen/1.5B cd DeepSeek-R1-Distill-Qwen/1.5B git lfs install git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

注意：若git clone因网络中断失败，可使用分步下载策略：

# 跳过 LFS 大文件下载 GIT_LFS_SKIP_SMUDGE=1 git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B # 手动下载模型权重 wget https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/resolve/main/model.safetensors # 移动到对应目录 mv model.safetensors ./DeepSeek-R1-Distill-Qwen-1.5B/

3.2 使用 Screen 防止 SSH 断连

长时间下载易因网络波动中断，推荐使用screen工具保持会话：

apt install screen -y screen -S dl_model # 创建名为 dl_model 的会话 # 在其中执行 git clone 或 wget 命令 Ctrl + A + D # 挂起到后台 screen -r dl_model # 重新连接会话

4. 构建自定义模型文件（Modelfile）

为了让 Ollama 正确识别 DeepSeek-R1-Distill-Qwen-1.5B 的对话模板和生成参数，需创建Modelfile。

4.1 编写 Modelfile

在模型目录下新建文件Modelfile，内容如下：

PARAMETER temperature 0.6 PARAMETER top_p 0.95 TEMPLATE """ {{- if .System }}{{ .System }}{{ end }} {{- range $i, $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1}} {{- if eq .Role "user" }}<｜User｜>{{ .Content }} {{- else if eq .Role "assistant" }}<｜Assistant｜>{{ .Content }}{{- if not $last }}<｜end▁of▁sentence｜>{{- end }} {{- end }} {{- if and $last (ne .Role "assistant") }}<｜Assistant｜>{{- end }} {{- end }} """

该模板定义了 DeepSeek 系列模型特有的<｜User｜>和<｜Assistant｜>标记格式，确保对话逻辑正确解析。

4.2 加载模型到 Ollama

ollama create DeepSeek-R1-Distill-Qwen-1.5B -f ./Modelfile

成功后可通过以下命令验证：

ollama list

输出应包含：

NAME SIZE MODIFIED DeepSeek-R1-Distill-Qwen-1.5B 3.0GB 1 minute ago

5. 启动本地对话服务

5.1 命令行交互模式

最简单的测试方式是直接运行模型进行聊天：

ollama run DeepSeek-R1-Distill-Qwen-1.5B

进入交互界面后输入问题，例如：

> 数学题：一个圆的半径是 5cm，求面积。

按/bye可退出对话。

5.2 API 接口调用（REST 方式）

Ollama 默认监听127.0.0.1:11434，可通过 curl 发起请求：

curl http://127.0.0.1:11434/api/generate -d '{ "model": "DeepSeek-R1-Distill-Qwen-1.5B", "prompt": "天空为什么是蓝色的？", "stream": false }'

返回 JSON 结构中"response"字段即为模型回答。

6. Python 集成开发实践

对于希望将模型集成进项目的开发者，Ollama 提供了官方 Python 库。

6.1 安装依赖

pip install ollama

6.2 基础问答封装

import ollama # 设置客户端地址 client = ollama.Client(host='http://localhost:11434') def ollama_chat(prompt, model="DeepSeek-R1-Distill-Qwen-1.5B"): try: response = client.generate( model=model, prompt=prompt, options={ "temperature": 0.7, "num_predict": 500 } ) return response['response'] except Exception as e: return f"Error: {str(e)}" # 示例调用 print(ollama_chat("解释牛顿第一定律"))

6.3 支持上下文的对话类

为了实现多轮对话，需维护上下文context：

class ChatSession: def __init__(self, model="DeepSeek-R1-Distill-Qwen-1.5B"): self.client = ollama.Client(host='http://localhost:11434') self.model = model self.context = [] self.history = [] def chat(self, prompt): try: response = self.client.generate( model=self.model, prompt=prompt, context=self.context, options={'temperature': 0.7} ) self.context = response.get('context', []) self.history.append({"user": prompt, "assistant": response['response']}) return response['response'] except Exception as e: return f"Error: {str(e)}" # 使用示例 if __name__ == "__main__": session = ChatSession() while True: user_input = input("You: ") if user_input.lower() in ['exit', 'quit']: break reply = session.chat(user_input) print(f"AI: {reply}")

7. 图形化界面：Open WebUI 部署

虽然命令行足够灵活，但图形界面更适合日常使用。Open WebUI是一款开源的本地大模型前端，支持多种后端（包括 Ollama），提供类似 ChatGPT 的体验。

7.1 启动 Open WebUI（Docker 方式）

docker run -d \ -p 3000:8080 \ -e OLLAMA_BASE_URL=http://your-host-ip:11434 \ -v open-webui:/app/backend/data \ --name open-webui \ ghcr.io/open-webui/open-webui:main

将your-host-ip替换为实际主机 IP（非 localhost），确保容器能访问 Ollama 服务。

访问http://<your-server-ip>:3000即可打开网页界面。

7.2 登录与模型选择

根据文档信息，演示账号如下：

邮箱：kakajiang@kakajiang.com
密码：kakajiang

登录后，在设置中确认模型源已连接 Ollama，并选择DeepSeek-R1-Distill-Qwen-1.5B作为默认模型。

你也可以上传自定义头像、启用暗色主题、保存对话历史等。

8. 性能优化与部署建议

8.1 显存不足时的解决方案

若显存小于 6GB，推荐使用GGUF 量化版本模型，通过 llama.cpp 或 Jan 推理引擎运行：

GGUF-Q4 模型大小仅 0.8GB
支持 Apple Silicon、Windows、Linux 全平台
可在 4GB RAM 设备上流畅运行

获取方式：

# 在 HuggingFace 镜像站查找 GGUF 版本 https://hf-mirror.com/TheBloke/DeepSeek-R1-Distill-Qwen-1.5B-GGUF

配合 Jan 或 LM Studio 即可一键加载。

8.2 提升响应速度的小技巧

优化项	建议
推理引擎	使用 vLLM 替代原生 Ollama，提升吞吐量
批处理	开启 continuous batching（vLLM 支持）
量化	使用 GPTQ 或 AWQ 加速推理（需转换模型）
缓存	启用 key-value cache 减少重复计算

8.3 商业化注意事项

模型协议为Apache 2.0，允许商用，但需遵守许可证条款
不得用于违法、侵权、欺诈等场景
建议在产品中注明模型来源：“Powered by DeepSeek-R1-Distill-Qwen-1.5B”

9. 总结

本文系统介绍了如何从零开始部署DeepSeek-R1-Distill-Qwen-1.5B模型，构建本地 AI 对话应用。我们覆盖了以下几个关键环节：

模型特性理解：1.5B 参数实现接近 7B 水平的推理能力，尤其擅长数学与代码任务；
环境搭建流程：通过 Ollama 简化模型管理，降低部署门槛；
本地加载方法：利用 Modelfile 自定义对话模板，适配 DeepSeek 特有格式；
多形态交互：支持 CLI、API、Python SDK 和 Web UI 四种使用方式；
轻量化部署方案：提供 GGUF + CPU 推理路径，适用于边缘设备；
工程化建议：包括性能优化、上下文管理、错误处理等实用技巧。

无论你是想打造个人知识助手、嵌入式智能终端，还是开发轻量级企业客服机器人，DeepSeek-R1-Distill-Qwen-1.5B 都是一个极具性价比的选择——3GB 显存起步，数学 80+ 分，可商用，真·零门槛部署。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

零基础入门：用DeepSeek-R1-Distill-Qwen-1.5B快速搭建本地AI对话应用