news 2026/5/31 13:59:22

华为昇腾CANN深度学习环境搭建-以搭建VLLM为例

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
华为昇腾CANN深度学习环境搭建-以搭建VLLM为例

1 )首先确定vllm-ascend依赖。

Installation — vllm-ascend

确定cann的版本8.3.rc2

确定vllm和vllm-ascend的对照关系

2) 查询物理机的驱动版本

假设不是cann8.3rc2,那就安装

网址在这里,需要自己注册登录一下:

https://www.hiascend.com/developer/download/community/result?from=firmware&product=1&model=30&cann=8.3.RC2

下载toolkit和 kernels, 我是910b,如果是310请选择对照的版本。

下载完了以后就安装这俩驱动

安装完了以后,再安装一下这几个包,推荐使用conda安装。

pip3 install attrs cython 'numpy>=1.19.2,<=1.24.0' decorator sympy cffi pyyaml pathlib2 psutil protobuf==3.20.0 scipy requests absl-py --user

到这个阶段,驱动安装完了。

3)开始安装torch和torch-npu

这是下载地址:

https://www.hiascend.com/document/detail/zh/Pytorch/720/configandinstg/instg/insg_0004.html

其中8.3rc1和rc2可以通用。

然后安装npu-插件

安装完了以后,测试安装效果

python3 -c "import torch;import torch_npu; a = torch.randn(3, 4).npu(); print(a + a);"

然后安装vllm

安装完了vllm以后呢,torch会被重新装一下,版本可能和你的驱动不搭配。所以

这一步,需要按照第2步重新装一下torch和torch-npu

然后vllm-ascend版本和vllm版本要对照。

然后就结束了。大功告成。

(根据本人的经验,vllm0.11比0.12要快一些。)

4)vllm起量化模型。

vllm serve ./model_path --served-model-name qwen_quant --quantization ascend --max-model-len 90000 --port 8999

访问vllm接口:

为什么要截取90000,因为如果请求超过vllm的max_len 会报错,所以最好限制一下,不要超过vllm起服务时候的最大长度。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/29 19:29:25

高性能计算加持:GPU集群部署EmotiVoice最佳配置

高性能计算加持&#xff1a;GPU集群部署EmotiVoice最佳配置 在虚拟偶像直播中&#xff0c;观众听到的不仅是“今天很开心”的字面朗读&#xff0c;而是真正带着笑意、语调上扬、节奏轻快的声音&#xff1b;在智能客服系统里&#xff0c;AI不再用千篇一律的语调回应愤怒用户&…

作者头像 李华
网站建设 2026/5/30 22:17:10

2036年机器意识觉醒?|杨立昆 VS Gemini负责人

近日&#xff0c;图灵奖得主 Yann LeCun 与 Google DeepMind 研究负责人、Gemini 团队负责人Adam Brown 在Pioneer Works的会议上进行了一场对谈。本次对话探讨了神经网络的仿生学本质、大语言模型的理解力边界、样本效率的物种差异、 Yann LeCun 关于“机器学习弱爆了”的真实…

作者头像 李华
网站建设 2026/5/28 22:33:15

MySQL存储过程开发效率提升300%的秘诀

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 构建一个MySQL存储过程开发效率工具包&#xff0c;包含&#xff1a;1. 代码片段库&#xff08;常用模式一键插入&#xff09;&#xff1b;2. 实时语法检查和性能分析&#xff1b;3.…

作者头像 李华
网站建设 2026/5/28 15:55:39

5分钟创建Spring Boot自动配置原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 快速创建一个Spring Boot自动配置原型项目。首先定义一个自定义starter项目结构&#xff0c;包含META-INF/spring/org.springframework.boot.autoconfigure.AutoConfiguration.impo…

作者头像 李华
网站建设 2026/5/30 20:34:25

torch.where vs numpy.where:性能对比全解析

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 创建一个性能对比测试脚本&#xff0c;比较torch.where和numpy.where在不同数据规模(从1e3到1e7元素)下的执行时间。要求&#xff1a;1) 包含CPU和GPU测试 2) 测试不同数据类型(flo…

作者头像 李华
网站建设 2026/5/28 21:06:14

1小时开发:基于蓝屏日志的硬件健康检测原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 快速开发一个硬件健康检测原型&#xff0c;功能&#xff1a;1. 解析蓝屏日志中的硬件相关错误 2. 根据WHEA日志评估硬件状态 3. 简单风险评分&#xff08;绿/黄/红&#xff09;4. 生…

作者头像 李华