Phi-3.5-mini-instruct部署案例：在国产昇腾910B上适配Phi-3.5-mini的初步探索-开发者社区

Phi-3.5-mini-instruct部署案例：在国产昇腾910B上适配Phi-3.5-mini的初步探索

1. 模型简介

Phi-3.5-mini-instruct 是一个轻量级的开放模型，属于Phi-3模型家族。该模型基于高质量数据集构建，特别注重推理密集型任务的处理能力。以下是它的核心特点：

上下文长度：支持128K令牌的超长上下文处理
训练方法：结合了监督微调、近端策略优化和直接偏好优化
数据来源：使用合成数据和经过严格筛选的公开网站数据
安全特性：内置强大的安全措施，确保指令执行的准确性

这个模型特别适合需要精确遵循指令的应用场景，同时保持了轻量级的优势，非常适合在国产昇腾910B这样的硬件平台上部署。

2. 部署环境准备

2.1 硬件要求

在昇腾910B上部署Phi-3.5-mini-instruct需要满足以下硬件条件：

处理器：昇腾910B NPU
内存：建议至少32GB RAM
存储：需要20GB以上的可用空间
操作系统：支持Ascend软件栈的Linux发行版

2.2 软件依赖

部署前需要安装以下软件包：

# 基础依赖 sudo apt-get update sudo apt-get install -y python3-pip git # Python依赖 pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu pip3 install vllm chainlit

3. 模型部署步骤

3.1 使用vLLM部署模型

vLLM是一个高效的推理引擎，特别适合在昇腾910B上部署大型语言模型。以下是部署步骤：

首先下载模型权重：

git clone https://huggingface.co/microsoft/Phi-3-mini-128k-instruct

使用vLLM启动服务：

python3 -m vllm.entrypoints.api_server \ --model microsoft/Phi-3-mini-128k-instruct \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.9

验证服务是否启动成功：

curl http://localhost:8000/v1/models

如果返回模型信息，说明服务已成功启动。

3.2 使用Chainlit创建前端界面

Chainlit是一个简单易用的Python库，可以快速为LLM应用创建交互式界面。

创建一个简单的app.py文件：

import chainlit as cl from openai import OpenAI client = OpenAI(base_url="http://localhost:8000/v1", api_key="token-abc123") @cl.on_message async def main(message: cl.Message): response = client.chat.completions.create( model="Phi-3-mini-128k-instruct", messages=[{"role": "user", "content": message.content}], temperature=0.7, ) await cl.Message(content=response.choices[0].message.content).send()

启动Chainlit服务：

chainlit run app.py -w

4. 部署验证与测试

4.1 服务状态检查

可以通过以下命令检查模型服务是否正常运行：

cat /root/workspace/llm.log

如果看到类似下面的输出，说明服务已成功启动：

INFO 05-08 14:30:12 llm_engine.py:72] Initializing an LLM engine with config... INFO 05-08 14:30:15 model_runner.py:89] Loading model weights... INFO 05-08 14:30:18 model_runner.py:92] Model loaded successfully.

4.2 前端界面测试

打开Chainlit前端界面，通常在浏览器访问http://localhost:8000
在输入框中提问，例如："请解释量子计算的基本原理"
观察模型返回的响应，验证生成质量

5. 性能优化建议

在昇腾910B上运行Phi-3.5-mini-instruct时，可以考虑以下优化措施：

批处理请求：vLLM支持批处理，可以显著提高吞吐量
量化模型：考虑使用8-bit或4-bit量化减少内存占用
调整参数：
- 适当降低temperature值可以提高生成稳定性
- 调整max_tokens限制输出长度
硬件优化：
- 确保NPU驱动和软件栈是最新版本
- 监控NPU利用率，避免资源争用

6. 常见问题解决

6.1 模型加载失败

如果模型无法加载，检查：

模型权重路径是否正确
是否有足够的存储空间
NPU驱动是否正常安装

6.2 生成质量不佳

如果生成结果不理想，尝试：

调整temperature参数（建议0.5-0.8）
提供更明确的指令
增加上下文信息

6.3 性能问题

如果遇到性能瓶颈：

检查NPU利用率
考虑减少并发请求数
验证是否有其他进程占用资源

7. 总结

本次实践展示了如何在国产昇腾910B平台上成功部署Phi-3.5-mini-instruct模型，并使用vLLM和Chainlit构建了完整的文本生成服务。关键收获包括：

验证了Phi-3.5-mini在昇腾910B上的兼容性
掌握了使用vLLM部署LLM的高效方法
实现了通过Chainlit快速构建交互界面
积累了在国产硬件上优化模型性能的经验

这种部署方案特别适合需要轻量级、高性能文本生成能力的应用场景，同时也为国产硬件生态的发展提供了有价值的参考案例。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

别再傻傻用for循环了！手把手教你用STM32的SysTick定时器实现精准延时（附正点原子代码解析）

STM32精准延时实战：SysTick定时器替代低效循环的完整指南第一次接触STM32开发时，我习惯性地用for循环实现延时，结果LED闪烁频率总是不稳定。直到项目需要精确控制传感器采样间隔，才发现这种方法的致命缺陷——它严重依赖CPU时钟频…

李华

3步搞定：让老旧的PL2303串口设备在Win10/Win11上满血复活

3步搞定：让老旧的PL2303串口设备在Win10/Win11上满血复活【免费下载链接】pl2303-win10 Windows 10 driver for end-of-life PL-2303 chipsets. 项目地址: https://gitcode.com/gh_mirrors/pl/pl2303-win10 周末整理工作室，翻出一个尘封的Arduin…

李华

nli-MiniLM2-L6-H768效果实测：中文法律领域测试集准确率91.2%

nli-MiniLM2-L6-H768效果实测：中文法律领域测试集准确率91.2% 1. 模型效果惊艳展示 nli-MiniLM2-L6-H768作为一款专注于自然语言推理的轻量级模型，在中文法律领域的表现令人印象深刻。经过专业测试集验证，该模型在判断句子关系任务上达到了…

李华

如何高效使用鸣潮自动化工具：从零开始到精通实战

如何高效使用鸣潮自动化工具：从零开始到精通实战【免费下载链接】ok-wuthering-waves 鸣潮后台自动战斗自动刷声骸一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 你是否厌倦了在《鸣潮…

李华

SeanLib系列函数库-MyFIFO

查看其它库函数说明，请点击此处跳转到SeanLib主页 1. 本篇内容本篇介绍FIFO库，一个可自定义大小的环形先进先出的数据容器，提供了入队、出队的基本操作方法，以用一些存入字符串、取整行数据等高级的操作方法，适用于…

李华

ACadSharp深度解析：现代.NET生态中的CAD数据处理架构揭秘

ACadSharp深度解析：现代.NET生态中的CAD数据处理架构揭秘【免费下载链接】ACadSharp C# library to read/write cad files like dxf/dwg. 项目地址: https://gitcode.com/gh_mirrors/ac/ACadSharp 在CAD工程数据处理领域，传统解决方案往往面临格…

李华