news 2026/5/30 5:42:57

基于vLLM Ascend在昇腾上部署Qwen3-Coder-Next,手把手指南来了!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于vLLM Ascend在昇腾上部署Qwen3-Coder-Next,手把手指南来了!

2月4日,千问Qwen3-Coder-Next正式开源,这是一款专为编程智能体与本地开发设计的开源权重语言模型。昇腾适配支持供开发者尝鲜体验。适配模型及权重已同时上线魔乐社区,欢迎开发者们下载!

🔗 权重链接:https://modelers.cn/models/Qwen-AI/Qwen3-Coder-Next

🔗 昇腾推理指南:https://modelers.cn/models/vLLM_Ascend/Qwen3-Coder-Next

01模型亮点介绍

Qwen3-Coder-Next是一个高稀疏性的混合专家模型(MoE)。该模型基于 Qwen3-Next-80B-A3B-Base 构建,采用混合注意力与 MoE 的新架构;通过大规模可执行任务合成、环境交互与强化学习进行智能体训练,在显著降低推理成本的同时,获得了强大的编程与智能体能力。

Qwen3-Coder-Next 不依赖单纯的参数扩展,而是聚焦于扩展智能体训练信号。使用大规模的可验证编程任务与可执行环境进行训练,使模型能够直接从环境反馈中学习。尽管激活参数规模很小,该模型在多项智能体评测上仍能匹敌或超过若干更大的开源模型。

这款轻量且高效的代码模型可集成到多种下游应用中,例如 OpenClaw、Qwen Code、Claude Code、Web 开发、浏览器使用、Cline 等场景中。

以下手把手教你基于vLLM Ascend在昇腾上部署该模型。

02获取权重

可在魔乐社区快速下载模型权重:

https://modelers.cn/models/Qwen-AI/Qwen3-Coder-Next

Qwen3-Coder-Next已在vllm-ascend:v0.14.0rc1版本镜像支持。

03部署模型

启动Docker容器

# Update the vllm-ascend image # For Atlas A2 machines: # export IMAGE=quay.io/ascend/vllm-ascend:|vllm_ascend_version| # For Atlas A3 machines: export IMAGE=quay.io/ascend/vllm-ascend:|vllm_ascend_version|-a3 docker run --rm \ --shm-size=1g \ --name qwen3-coder-next \ --device /dev/davinci0 \ --device /dev/davinci1 \ --device /dev/davinci2 \ --device /dev/davinci3 \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /root/.cache:/root/.cache \ -p 8000:8000 \ -it $IMAGE bash

需要确保你的环境中有Triton Ascend以运行该模型 (https://gitee.com/ascend/triton-ascend)。

pip install triton-ascend==3.2.0

推理

离线推理

执行以下离线脚本,给模型输入四条prompt:

import os os.environ["VLLM_USE_MODELSCOPE"] = "True" os.environ["VLLM_WORKER_MULTIPROC_METHOD"] = "spawn" from vllm import LLM, SamplingParams def main(): prompts = [ "Hello, my name is", "The president of the United States is", "The capital of France is", "The future of AI is", ] # Create a sampling params object. sampling_params = SamplingParams(max_tokens=100, temperature=0.0) # Create an LLM. llm = LLM(model="/path/to/model/Qwen3-Coder-Next/", tensor_parallel_size=4, trust_remote_code=True, max_model_len=10000, gpu_memory_utilization=0.8, max_num_seqs=4, max_num_batched_tokens = 4096, compilation_config={ "cudagraph_mode": "FULL_DECODE_ONLY",}, ) # Generate texts from the prompts. outputs = llm.generate(prompts, sampling_params) for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}") if __name__ == "__main__": main()

在线推理

执行以下脚本启动一个在线的服务:

vllm serve /path/to/model/Qwen3-Coder-Next/ --tensor-parallel-size 4 --max-model-len 32768 --gpu-memory-utilization 0.8 --max-num-batched-tokens 4096 --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'

然后执行以下脚本向模型发送一条请求:

curl http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "prompt": "The future of AI is", "path": "/path/to/model/Qwen3-Coder-Next/", "max_tokens": 100, "temperature": 0 }'

执行结束后,你可以看到模型回答如下:

Prompt: 'The future of AI is', Generated text: ' not just about building smarter machines, but about creating systems that can collaborate with humans in meaningful, ethical, and sustainable ways. As AI continues to evolve, it will increasingly shape how we live, work, and interact — and the decisions we make today will determine whether this future is one of shared prosperity or deepening inequality.\n\nThe rise of generative AI, for example, has already begun to transform creative industries, education, and scientific research. Tools like ChatGPT, Midjourney, and'

当前仅为尝鲜体验,性能优化中。如您在部署的过程中,发现任何问题(包括但不限于功能问题、合规问题),请在模型代码仓提交issue,开发者将及时审视并解答。
🔗 https://modelers.cn/models/vLLM_Ascend/Qwen3-Coder-Next

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 18:14:21

Hive高级特性详解:CTE、窗口函数、UDF开发,带你从初级到资深

Hive高级特性详解:CTE、窗口函数、UDF开发,带你从初级到资深 1. 引入与连接 引人入胜的开场 想象一下,你是一家大型电商公司的数据分析师,每天都要处理海量的销售数据。有一天,老板突然要求你分析过去一个月内每个客户…

作者头像 李华
网站建设 2026/5/28 22:29:06

数据库容器和 Kubernetes 演进

在容器化环境中运行数据库的旅程是一次变革性的过程,标志着与早期 Kubernetes 主要为无状态应用程序设计的时代相比发生了重大转变。如今,容器化数据库代表了一种成熟的技术堆栈,使组织能够以与应用程序层相同的敏捷性和可扩展性来管理数据工…

作者头像 李华
网站建设 2026/5/28 21:24:23

学考赋能哪家优?泛微青蓝阁、考试星、酷学院、云学堂实力拆解

随着企业数字化人才培育进入“精准化、合规化”深水区,学习培训考试平台已从基础辅助工具,升级为企业搭建学练考闭环、赋能员工成长的核心载体。据《2026年企业学考数字化白皮书》显示,国内该领域市场规模已突破900亿元,AI赋能、合…

作者头像 李华
网站建设 2026/5/28 18:14:25

如何创建一个PR

第一阶段:本地准备 (在终端操作) 这几步是为了确保你的代码在本地是干净、准确地打包好的。 1. 确认身份 git branch 作用:查看当前所在的分支。 检查点:必须看到 * crj_develop(你的名字分支)是绿色的。 为什么&…

作者头像 李华