小白也能懂：DeepSeek-R1-Distill-Qwen-1.5B保姆级部署教程-开发者社区

小白也能懂：DeepSeek-R1-Distill-Qwen-1.5B保姆级部署教程

1. 引言

随着大模型技术的快速发展，越来越多开发者希望在本地环境中部署轻量级高性能的语言模型。本文将带你从零开始，完整部署DeepSeek-R1-Distill-Qwen-1.5B模型，并通过 vLLM 实现高效推理服务。无论你是 AI 新手还是有一定经验的开发者，都能按照本教程顺利完成部署。

本教程基于 CSDN 星图平台提供的镜像环境，涵盖模型下载、服务启动、接口调用和常见问题排查等全流程，真正做到“保姆级”指导。我们将使用 Ollama 管理模型，结合 Python 脚本实现 API 调用，确保你不仅能跑通流程，还能理解每一步背后的逻辑。

2. 环境准备与依赖安装

2.1 安装 CUDA（略）

CUDA 是 NVIDIA 提供的并行计算平台和编程模型，用于加速深度学习任务。请确保你的系统已正确安装适配显卡驱动版本的 CUDA 工具包。可通过以下命令验证：

nvidia-smi

若显示 GPU 信息，则说明驱动和 CUDA 安装正常。

2.2 配置 Python 环境（略）

建议使用 Conda 或 venv 创建独立虚拟环境，避免依赖冲突。例如：

python -m venv deepseek-env source deepseek-env/bin/activate pip install --upgrade pip

3. 安装与配置 Ollama

Ollama 是一个轻量级本地大模型运行工具，支持多种主流模型格式，便于快速部署和测试。

3.1 下载并安装 Ollama

执行以下命令安装 Ollama：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，可通过 systemd 管理其后台服务：

systemctl status ollama.service

常用服务管理命令如下：

systemctl start ollama.service：启动服务
systemctl stop ollama.service：停止服务
systemctl restart ollama.service：重启服务

4. 下载 DeepSeek-R1-Distill-Qwen-1.5B 模型

由于 Hugging Face 国内访问受限，我们使用国内镜像站进行模型下载。

4.1 创建工作目录并克隆模型

mkdir -p DeepSeek-R1-Distill-Qwen/1.5B cd DeepSeek-R1-Distill-Qwen/1.5B git lfs install git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

注意：git lfs install用于启用大文件存储支持，确保.safetensors权重文件能被正确下载。

4.2 备用方案：分步下载模型文件

如果因网络不稳定导致git clone中断，可采用分步下载方式：

GIT_LFS_SKIP_SMUDGE=1 git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B wget https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/resolve/main/model.safetensors mv model.safetensors ./DeepSeek-R1-Distill-Qwen-1.5B/

4.3 使用 Screen 保持后台运行

为防止 SSH 断连导致下载中断，推荐使用screen工具保活会话：

apt install screen -y screen -S deepseek-download # 创建名为 deepseek-download 的会话 screen -ls # 查看所有会话 screen -r deepseek-download # 恢复指定会话 # 按 Ctrl+A 再按 D 可将当前会话切回后台

5. 构建模型镜像文件（Modelfile）

Ollama 使用Modelfile定义模型行为参数和提示模板。

5.1 创建 Modelfile 文件

在模型目录下创建名为Modelfile的文本文件，内容如下：

PARAMETER temperature 0.6 PARAMETER top_p 0.95 TEMPLATE """ {{- if .System }}{{ .System }}{{ end }} {{- range $i, $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1}} {{- if eq .Role "user" }}<｜User｜>{{ .Content }} {{- else if eq .Role "assistant" }}<｜Assistant｜>{{ .Content }}{{- if not $last }}<｜end▁of▁sentence｜>{{- end }} {{- end }} {{- if and $last (ne .Role "assistant") }}<｜Assistant｜>{{- end }} {{- end }} """

参数说明：

temperature 0.6：控制输出随机性，推荐值为 0.5~0.7，过高易产生不连贯内容。
top_p 0.95：核采样阈值，保留概率累计前 95% 的词汇。
TEMPLATE：定义对话结构，兼容 DeepSeek-R1 系列的特殊标记格式。

6. 加载模型并启动服务

6.1 使用 Ollama 创建模型实例

ollama create DeepSeek-R1-Distill-Qwen-1.5B -f ./Modelfile

该命令将根据Modelfile配置加载模型权重并注册为本地可用模型。

6.2 常用 Ollama 命令

ollama list # 查看已加载模型列表 ollama run DeepSeek-R1-Distill-Qwen-1.5B # 启动交互式聊天 ollama rm DeepSeek-R1-Distill-Qwen-1.5B # 删除模型（谨慎操作）

启动后可在终端直接输入问题与模型互动，输入/bye退出对话。

7. 测试模型服务是否启动成功

7.1 进入工作目录

cd /root/workspace

7.2 查看启动日志

cat deepseek_qwen.log

若日志中出现类似"Model loaded successfully"或监听端口信息，则表示模型已成功加载。

8. 调用模型服务进行测试

8.1 使用 curl 测试 REST 接口

Ollama 默认监听127.0.0.1:11434，可通过 HTTP 请求调用：

curl http://127.0.0.1:11434/api/generate -d '{ "model": "DeepSeek-R1-Distill-Qwen-1.5B", "prompt": "天空为什么是蓝色的？", "stream": false }'

返回 JSON 格式的响应结果，包含生成文本和耗时信息。

9. 使用 Python 调用模型服务

9.1 安装 Ollama Python 包

pip install ollama

9.2 基础调用示例

import ollama def ollama_chat(prompt, model="DeepSeek-R1-Distill-Qwen-1.5B"): try: response = ollama.generate( model=model, prompt=prompt, options={ "temperature": 0.7, "num_predict": 500 } ) return response['response'] except Exception as e: return f"Error: {str(e)}" # 使用示例 if __name__ == "__main__": print(ollama_chat("为什么天空是蓝色的？"))

9.3 流式输出版本

def ollama_stream_chat(prompt, model="DeepSeek-R1-Distill-Qwen-1.5B"): try: for chunk in ollama.generate( model=model, prompt=prompt, stream=True ): yield chunk['response'] except Exception as e: yield f"Error: {str(e)}" # 使用示例 for text in ollama_stream_chat("讲一个冷笑话"): print(text, end="", flush=True)

9.4 支持上下文的对话类

class ChatSession: def __init__(self, model="DeepSeek-R1-Distill-Qwen-1.5B"): self.client = ollama.Client(host='http://localhost:11434') self.model = model self.context = [] self.history = [] def chat(self, prompt): try: response = self.client.generate( model=self.model, prompt=prompt, context=self.context, options={'temperature': 0.7} ) self.context = response.get('context', []) self.history.append({"user": prompt, "assistant": response['response']}) return response['response'] except Exception as e: return f"Error: {str(e)}" # 使用示例 session = ChatSession() while True: user_input = input("You: ") if user_input.lower() in ['exit', 'quit']: break response = session.chat(user_input) print(f"AI: {response}")

10. 使用 vLLM 启动模型服务（高级选项）

虽然 Ollama 适合快速部署，但对高并发或低延迟场景，推荐使用vLLM提升性能。

10.1 安装 vLLM

pip install vllm

10.2 启动 vLLM 服务

python -m vllm.entrypoints.openai.api_server \ --model /root/DeepSeek-R1-Distill-Qwen/1.5B/DeepSeek-R1-Distill-Qwen-1.5B \ --tensor-parallel-size 1 \ --dtype auto \ --quantization awq \ --port 8000

注意：若未量化模型，可去掉--quantization awq参数。

10.3 使用 OpenAI 兼容客户端调用

from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="none" ) response = client.completions.create( model="DeepSeek-R1-Distill-Qwen-1.5B", prompt="请解释相对论的基本原理", max_tokens=200 ) print(response.choices[0].text)

11. 最佳实践与使用建议

根据官方文档，使用 DeepSeek-R1 系列模型时应遵循以下建议以获得最佳效果：

11.1 温度设置

将temperature设置在0.5~0.7之间（推荐 0.6），可有效防止重复输出或语义断裂。

11.2 提示工程技巧

避免使用系统提示：所有指令应包含在用户输入中。
数学问题引导：添加提示：“请逐步推理，并将最终答案放在\boxed{}内。”
强制换行开头：为防止跳过思维链，建议在每次输出前加入\n。

11.3 性能评估建议

多次运行取平均值，避免单次偶然性影响结论。
对关键任务进行 A/B 测试，对比不同参数下的表现。

12. 总结

本文详细介绍了如何在本地环境中部署DeepSeek-R1-Distill-Qwen-1.5B模型，涵盖了从环境搭建、模型下载、Ollama 配置到 vLLM 高性能服务启动的完整流程。通过本教程，你可以：

成功部署轻量级蒸馏模型，适用于边缘设备或资源受限环境；
使用 Ollama 快速验证模型能力；
利用 vLLM 实现生产级 API 服务能力；
掌握最佳调参策略和提示设计方法。

整个过程无需复杂配置，即使是初学者也能轻松上手。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。