小白也能玩转大模型！DeepSeek-R1-Distill-Qwen-1.5B保姆级教程-开发者社区

小白也能玩转大模型！DeepSeek-R1-Distill-Qwen-1.5B保姆级教程

1. 引言：为什么你需要关注这个“小钢炮”模型？

在大模型时代，动辄数十亿甚至上千亿参数的模型让人望而却步。它们虽然能力强大，但对硬件要求极高，普通用户难以本地部署和使用。然而，随着模型蒸馏技术的发展，小模型也能有大智慧。

本文将带你从零开始，完整体验DeepSeek-R1-Distill-Qwen-1.5B这款“小钢炮”模型的部署与应用。它仅用 1.5B 参数，却能在数学推理（MATH 80+）、代码生成（HumanEval 50+）等任务上媲美 7B 级别模型，且支持 vLLM 加速、Open WebUI 可视化交互，真正做到“3GB 显存可跑，手机树莓派可用，商用免费”。

无论你是 AI 初学者、嵌入式开发者，还是想打造本地智能助手的技术爱好者，这篇教程都能让你快速上手。

2. 模型简介：什么是 DeepSeek-R1-Distill-Qwen-1.5B？

2.1 核心特点一句话总结

“1.5 B 体量，3 GB 显存，数学 80+ 分，可商用，零门槛部署。”

这是 DeepSeek 团队通过80 万条 R1 推理链样本对 Qwen-1.5B 进行知识蒸馏后得到的高性能轻量级模型，专为边缘计算和本地化部署优化。

2.2 关键技术指标

属性	说明
参数规模	15 亿 Dense 参数
显存需求	FP16 整模约 3.0 GB，GGUF-Q4 量化后低至 0.8 GB
上下文长度	支持 4K tokens
功能支持	JSON 输出、函数调用、Agent 插件扩展
推理速度	RTX 3060 上达 200 tokens/s；A17 芯片量化版 120 tokens/s
典型场景	手机助手、RK3588 嵌入式板卡、树莓派、本地代码/数学助手
开源协议	Apache 2.0，允许商业用途

2.3 适用人群选型建议

如果你符合以下任意一条，这款模型就是为你准备的：

硬件只有 4~6GB 显存，但仍希望运行一个能解数学题、写代码的本地大模型；
想在手机或嵌入式设备（如 RK3588）上实现实时对话；
需要一个可商用、无版权风险的轻量级模型用于产品原型开发；
希望快速搭建可视化聊天界面，无需从头写前端。

3. 快速部署：基于 vLLM + Open WebUI 的一键启动方案

本节介绍最简单的方式——使用预配置镜像，实现vLLM 加速推理 + Open WebUI 图形化交互的完整服务。

3.1 准备工作

确保你的环境满足以下条件之一：

GPU 显存 ≥ 6GB（推荐 NVIDIA 3060/4060 及以上）
或 CPU + 至少 16GB 内存（使用 GGUF 量化版本）

操作系统建议：Ubuntu 20.04/22.04 LTS 或 WSL2（Windows 用户）

3.2 启动预置镜像（推荐方式）

该模型已集成 vLLM、Ollama 和 Jan 等主流框架，支持一键拉起服务。

# 示例：使用 Docker 启动包含 vLLM 和 Open WebUI 的镜像 docker run -d \ --name deepseek-qwen-1.5b \ --gpus all \ -p 8888:8888 \ -p 7860:7860 \ your-mirror-registry/deepseek-r1-distill-qwen-1.5b:vllm-webui

📌 注：具体镜像地址请参考 CSDN 星图镜像广场或官方文档获取最新标签。

等待几分钟，系统会自动完成以下操作： - 加载模型权重 - 初始化 vLLM 推理引擎 - 启动 Open WebUI 服务

3.3 访问 Web 界面

服务启动成功后，打开浏览器访问：

http://localhost:7860

或者进入 Jupyter 环境后修改端口跳转：

http://localhost:8888 → 修改为 7860

登录账号信息如下（演示用）：

账号：kakajiang@kakajiang.com
密码：kakajiang

你将看到如下界面：

这是一个功能完整的对话平台，支持多轮对话、历史记录保存、导出聊天内容等功能。

4. 模型测试：精度与性能双验证

为了确认模型的实际表现，我们进行两方面的测试：纯模型推理测试和服务化接口测试。

4.1 环境准备（以昇腾 MindIE 为例）

⚠️ 以下步骤适用于使用华为昇腾 Atlas 系列设备的用户。若使用 NVIDIA GPU，请跳至第 5 节。

4.1.1 拉取推理容器

docker run -itd --privileged \ --name mindie-container \ --net=host \ --shm-size=500g \ --device=/dev/davinci0 \ --device=/dev/davinci_manager \ -v /usr/local/Ascend:/usr/local/Ascend \ -v /var/log/npu:/var/log/npu \ -v $model_path:/model \ ascend-mindie:latest /bin/bash

进入容器：

docker exec -it mindie-container bash

4.1.2 下载模型权重

mkdir /home/zhangsan && cd /home/zhangsan git lfs install git clone https://modelers.cn/State_Cloud/DeepSeek-R1-Distill-Qwen-1.5B.git

4.1.3 准备数据集（GSM8K 数学题测试集）

mkdir -p /home/zhangsan/data/gsm8k cd /home/zhangsan/data/gsm8k wget -O GSM8K.jsonl https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/gsm8k/test.jsonl --no-check-certificate

4.2 纯模型性能测试

4.2.1 设置环境变量

source /usr/local/Ascend/mindie/set_env.sh source /usr/local/Ascend/ascend-toolkit/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh source /usr/local/Ascend/llm_model/set_env.sh export MINDIE_LLM_LOG_TO_STDOUT=1 export PATH=/usr/local/python3.11.10/bin:$PATH

4.2.2 执行性能测试

cd /usr/local/Ascend/llm_model/tests/modeltests bash run.sh pa_bf16 performance [[256,256]] 1 qwen /model/DeepSeek-R1-Distill-Qwen-1.5B 1

预期输出结果包含： - 平均延迟（ms） - 吞吐量（tokens/s） - 显存占用情况

4.2.3 查看性能报告

成功运行后，日志中将显示类似以下信息：

Throughput: 198.7 tokens/s Latency: 12.3 ms per token Memory Usage: 5.8 GB HBM

表明模型在昇腾平台上具备高效推理能力。

4.3 精度测试：评估数学解题能力

4.3.1 复制测试数据集

cp -r /home/zhangsan/data ./data

4.3.2 执行精度测试命令

bash run.sh pa_bf16 full_GSM8K 100 qwen /model/DeepSeek-R1-Distill-Qwen-1.5B 1

此命令会在 GSM8K 数据集上测试模型解答小学数学应用题的能力。

4.3.3 查看精度结果

测试完成后，系统会输出准确率（Accuracy）。根据官方数据，该模型在 MATH 数据集上得分超过80 分，意味着每 5 道题能正确回答 4 道以上。

典型输出示例：

GSM8K Accuracy: 81.2% Reasoning Chain Preservation Rate: 85%

5. 服务化部署：打造本地 AI 助手 API 服务

为了让模型真正“活起来”，我们需要将其封装为 HTTP 服务，供其他程序调用。

5.1 配置服务参数

编辑配置文件：

cd /usr/local/Ascend/mindie/latest/mindie-service vim conf/config.json

关键字段设置如下：

{ "model": "qwen", "model_path": "/model/DeepSeek-R1-Distill-Qwen-1.5B", "max_seq_len": 4096, "tensor_parallel": 1, "port": 1025 }

5.2 启动服务守护进程

./bin/mindieservice_daemon

成功启动后输出：

Daemon start success!

5.3 测试 API 接口

新开终端发送请求：

curl -X POST -d '{ "model": "qwen", "messages": [ {"role": "system", "content": "你是一个擅长数学推理的AI助手"}, {"role": "user", "content": "甲乙两人共有 30 元，甲比乙多 6 元，问各有多少？"} ], "max_tokens": 100, "stream": false }' http://127.0.0.1:1025/v1/chat/completions

返回示例：

{ "choices": [ { "message": { "content": "设乙有 x 元，则甲有 x+6 元。根据总金额：x + (x+6) = 30，解得 2x = 24，x = 12。所以乙有 12 元，甲有 18 元。" } } ] }

说明服务已正常响应。

6. 性能与精度服务化测试

6.1 服务化性能压测

export MINDIE_LOG_TO_STDOUT="benchmark:1; client:1" benchmark --DatasetPath "./data/gsm8k/GSM8K.jsonl" \ --DatasetType "gsm8k" \ --ModelName qwen \ --ModelPath "/model/DeepSeek-R1-Distill-Qwen-1.5B" \ --TestType client \ --Http http://127.0.0.1:1025 \ --Concurrency 100 \ --TaskKind stream \ --Tokenizer True \ --MaxOutputLen 512

目标：验证高并发下的吞吐与稳定性。

6.2 服务化精度验证

benchmark --DatasetPath "./data/gsm8k/GSM8K.jsonl" \ --DatasetType "gsm8k" \ --ModelName qwen \ --ModelPath "/model/DeepSeek-R1-Distill-Qwen-1.5B" \ --TestType client \ --Http http://127.0.0.1:1025 \ --Concurrency 1 \ --TaskKind stream \ --Tokenizer True \ --MaxOutputLen 512 \ --TestAccuracy True

确保服务模式下精度不下降。

7. 实际应用场景推荐

7.1 边缘计算设备部署（如 RK3588）

使用 GGUF-Q4 量化版本，内存占用 <1GB
在板载 Linux 系统中运行 llama.cpp + Open WebUI
实测 1k token 推理耗时约 16 秒，适合离线问答场景

7.2 本地代码助手

结合 VS Code 插件或自建 IDE 工具栏，调用本地 API 实现： - 自动补全 - 错误解释 - 单元测试生成 - SQL 转换

7.3 手机端私人助理（Android Termux）

安装 Termux + Python 环境
运行轻量级服务器（如 FastAPI + llama.cpp）
通过 App 发送请求，实现语音输入→AI 回答→语音播报闭环

8. 总结

本文详细介绍了DeepSeek-R1-Distill-Qwen-1.5B模型的特性、部署流程与实际测试方法，涵盖从环境搭建、模型加载、性能压测到服务化上线的全流程。

核心价值回顾

✅轻量高效：1.5B 参数实现接近 7B 模型的推理能力
✅低资源消耗：FP16 下仅需 3GB 显存，GGUF 量化后可在手机运行
✅功能完整：支持函数调用、JSON 输出、Agent 扩展
✅开箱即用：集成 vLLM、Open WebUI，提供可视化交互
✅商业友好：Apache 2.0 协议，允许自由商用

下一步建议

尝试将模型部署到你的笔记本或树莓派；
结合 LangChain 构建自动化工作流；
使用 Lora 微调适配特定业务场景；
探索多模态扩展（如接入 Whisper 做语音输入）。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。