Qwen2.5-1.5B部署教程：WSL2环境下Ubuntu子系统完整安装与调试流程-开发者社区

Qwen2.5-1.5B部署教程：WSL2环境下Ubuntu子系统完整安装与调试流程

1. 项目概述

Qwen2.5-1.5B是阿里通义千问推出的轻量级大语言模型，特别适合在本地环境中部署运行。本教程将详细介绍如何在WSL2的Ubuntu子系统中完整部署这个1.5B参数的智能对话模型，并搭建一个基于Streamlit的可视化聊天界面。

这个方案有以下几个显著优势：

完全本地化运行：所有数据处理和模型推理都在本地完成，确保数据隐私
低资源消耗：针对1.5B参数优化，适合普通GPU甚至CPU环境
开箱即用：提供简洁的Web界面，无需复杂配置即可开始对话
多轮对话支持：保持上下文连贯的自然对话体验

2. 环境准备

2.1 系统要求

在开始之前，请确保你的系统满足以下要求：

Windows 10/11 64位系统（版本1903或更高）
已启用WSL2功能
至少16GB内存（推荐32GB以获得更好体验）
至少20GB可用磁盘空间
NVIDIA GPU（非必须，但推荐使用以获得更好性能）

2.2 WSL2和Ubuntu安装

如果你还没有设置WSL2和Ubuntu，请按照以下步骤操作：

以管理员身份打开PowerShell，运行：
```
wsl --install
```
安装完成后重启电脑
从Microsoft Store安装Ubuntu 20.04或22.04 LTS
启动Ubuntu并完成初始设置

2.3 基础软件安装

在Ubuntu子系统中安装必要的软件包：

sudo apt update && sudo apt upgrade -y sudo apt install -y python3 python3-pip git

3. 模型部署

3.1 获取模型文件

首先，我们需要获取Qwen2.5-1.5B-Instruct模型文件。你可以通过以下方式之一获取：

从Hugging Face下载：

git lfs install git clone https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct

或者从阿里云官方渠道下载

将模型文件放置在/root/qwen1.5b目录下，确保包含以下关键文件：

config.json
tokenizer.json
model-00001-of-00002.safetensors
model-00002-of-00002.safetensors

3.2 安装Python依赖

创建并激活Python虚拟环境：

python3 -m venv qwen-env source qwen-env/bin/activate

安装必要的Python包：

pip install torch torchvision torchaudio pip install transformers streamlit

如果你的系统有NVIDIA GPU，建议安装对应版本的CUDA工具包：

pip install nvidia-cudnn-cu11

4. 搭建聊天界面

4.1 创建Streamlit应用

创建一个新的Python文件qwen_chat.py，并添加以下内容：

import streamlit as st from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_PATH = "/root/qwen1.5b" @st.cache_resource def load_model(): tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, device_map="auto", torch_dtype="auto", trust_remote_code=True ) return model, tokenizer model, tokenizer = load_model() st.title("Qwen2.5-1.5B 本地聊天助手") if "messages" not in st.session_state: st.session_state.messages = [] for message in st.session_state.messages: with st.chat_message(message["role"]): st.markdown(message["content"]) if prompt := st.chat_input("你好，我是Qwen..."): st.session_state.messages.append({"role": "user", "content": prompt}) with st.chat_message("user"): st.markdown(prompt) with st.chat_message("assistant"): message_placeholder = st.empty() full_response = "" for response in model.chat( tokenizer, st.session_state.messages, max_new_tokens=1024, temperature=0.7, top_p=0.9, stream=True ): full_response += response message_placeholder.markdown(full_response + "▌") message_placeholder.markdown(full_response) st.session_state.messages.append({"role": "assistant", "content": full_response}) with st.sidebar: if st.button("🧹 清空对话"): st.session_state.messages = [] torch.cuda.empty_cache()

4.2 启动应用

运行以下命令启动Streamlit应用：

streamlit run qwen_chat.py

首次启动时，系统会加载模型，这可能需要1-3分钟时间（取决于你的硬件性能）。加载完成后，你将在终端看到本地访问地址（通常是http://localhost:8501）。

5. 使用指南

5.1 开始对话

打开浏览器访问提供的地址后，你可以：

在底部输入框中输入你的问题或指令
按Enter键发送
等待模型生成回复（通常在几秒内完成）
继续对话，模型会保持上下文连贯

5.2 高级功能

清空对话：点击侧边栏的"清空对话"按钮可以重置对话历史并释放显存
调整参数：你可以在代码中修改temperature和top_p参数来调整回答的创造性和多样性
多轮对话：模型会自动维护对话历史，支持基于上下文的连续提问

5.3 性能优化建议

如果你的系统性能有限，可以尝试以下优化：

降低max_new_tokens值减少生成长度
使用torch_dtype=torch.float16减少显存占用
在CPU模式下运行（不推荐，速度会明显下降）

6. 常见问题解决

6.1 模型加载失败

如果模型加载失败，请检查：

模型文件路径是否正确
所有必需文件是否完整
磁盘空间是否充足

6.2 显存不足

如果遇到CUDA内存错误：

尝试减小max_new_tokens
使用--no-cuda参数在CPU模式下运行
确保没有其他程序占用大量显存

6.3 响应速度慢

对于较慢的响应：

确保使用了GPU加速
考虑升级硬件配置
减少生成长度

7. 总结

通过本教程，你已经成功在WSL2的Ubuntu子系统中部署了Qwen2.5-1.5B模型，并搭建了一个本地化的智能对话系统。这个方案特别适合需要数据隐私和本地化运行的场景，同时保持了良好的对话体验。

未来你可以进一步探索：

自定义模型微调
集成更多功能插件
优化界面和用户体验

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen2.5-1.5B部署教程：WSL2环境下Ubuntu子系统完整安装与调试流程