news 2026/5/4 1:12:19

Qwen Code + vLLM + Qwen3-Coder 构建本地私有化开发助手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen Code + vLLM + Qwen3-Coder 构建本地私有化开发助手

一、Qwen Code

Qwen Code是一款类似于Claude CodeAI编程助手,由阿里通义千问团队推出,一定程度上可以作为Claude Code的平替工具,本文通过Qwen Code+vLLM+Qwen3-Coder-30B-A3B-Instruct构建纯内网下私服级开发辅助引擎,主要流程如下所示:

实验主要依赖的版本如下:

torch==2.6.0transformers==4.51.3modelscope==1.23.1vllm==0.8.4

二、vLLM 部署 Qwen3-Coder-30B-A3B-Instruct

使用modelscope下载Qwen3-Coder-30B-A3B-Instruct模型到本地:

modelscope download--model="Qwen3-Coder-30B-A3B-Instruct"--local_dirQwen3-Coder-30B-A3B-Instruct

然后使用vLLM读取模型启动API服务。

exportCUDA_VISIBLE_DEVICES=0,1vllm serve"Qwen3-Coder-30B-A3B-Instruct"\--host0.0.0.0\--port8060\--dtypebfloat16\--tensor-parallel-size2\--cpu-offload-gb0\--gpu-memory-utilization0.8\--max-model-len65536\--api-key token-abc123\--enable-prefix-caching\--enable-auto-tool-choice\--tool-call-parser hermes\--trust-remote-code

关键参数说明:

  • export CUDA_VISIBLE_DEVICES=0,1:指定所使用的GPU
  • dtype: 数据类型,其中bfloat1616位浮点数,适合NVIDIA A100等设备。
  • tensor-parallel-sizeTensor并行的数量,当多GPU分布式推理时使用,建议和GPU的数量一致。
  • cpu-offload-gb:允许将部分模型权重或中间结果卸载到CPU的内存中,单位为GB,模拟GPU内存扩展,如果部署的模型大于了显存大小可以设置该参数,但是推理速度会大大下降。
  • gpu-memory-utilization:设置GPU内存利用率的上限。
  • max-model-len:允许模型最大处理的Token数,该参数越大占用显存越大。
  • enable-prefix-caching:启用前缀缓存减少重复计算。
  • enable-auto-tool-choice:启用 function call 模式。
  • tool-call-parser hermes:设置 function call 的解析器。

显存占用情况:

如果启动显存不足,可适当调整gpu-memory-utilizationmax-model-len参数,或通过cpu-offload-gb将部分模型权重卸载到内存中(速度会大大折扣)。

启动成功后,可通过/v1/models接口可查看模型列表:

curlhttp://127.0.0.1:8060/v1/models-H"Authorization: Bearer token-abc123"

测试API交互:

curlhttp://127.0.0.1:8060/v1/chat/completions\-H"Content-Type: application/json"\-H"Authorization: Bearer token-abc123"\-d'{ "model": "Qwen3-Coder-30B-A3B-Instruct", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你是谁"} ] }'

三、安装和配置 Qwen Code

首先安装 Qwen Code 组件,这里采用 npm:

npminstall-g@qwen-code/qwen-code@latest

安装好后,可以输入qwen进入窗口:

配置上面部署的私有模型:

在项目目录下创建.env文件, 内容如下所示:

OPENAI_BASE_URL=http://127.0.0.1:8060/v1/OPENAI_API_KEY=token-abc123OPENAI_MODEL=Qwen3-Coder-30B-A3B-Instruct

然后在.env文件同级的目录下唤醒qwen:

i进入插入模式,然后输入/auth切换认证方式,选择OpenAI,确认信息后即配置成功:

四、 Vibe Coding 测试

这里简单测试下 Vibe Coding ,开发一个H5小游戏和一个前端页面。

4.1 测试 h5 小游戏开发

输入指令:创建一个H5五子棋小游戏

默认情况下,对文件的修改都要用户授权,这里可以先选择是,总是允许

最终运行使用效果:

4.2 测试 前端页面开发

输入指令:实现一个科技感十足的数据分析洞察的前端展示页面,使用H5绘制,需要包含炫酷的图表和动画

最终运行使用效果:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 13:22:34

从零实现:基于LVGL的自定义控件渲染逻辑

从零打造专属控件:深入LVGL的渲染内核与自定义实践你有没有遇到过这样的场景?项目需要一个环形滑动条,或者带呼吸光效的智能音箱音量指示器,又或是工业HMI中那种动态仪表盘。翻遍LVGL的标准控件库,却发现——没有一个能…

作者头像 李华
网站建设 2026/5/1 2:26:36

飞书文档批量导出终极指南:3步搞定全平台文档迁移

飞书文档批量导出终极指南:3步搞定全平台文档迁移 【免费下载链接】feishu-doc-export 项目地址: https://gitcode.com/gh_mirrors/fe/feishu-doc-export 还在为成百上千的飞书文档迁移而头疼吗?😫 手动一个个下载不仅效率低下&#…

作者头像 李华
网站建设 2026/5/1 6:58:18

大模型Token余额提醒:当剩余不足时推送消息引导续费

大模型Token余额提醒:当剩余不足时推送消息引导续费 在AI服务日益普及的今天,越来越多企业与个人用户依赖大模型完成内容生成、图像修复、语音处理等高价值任务。然而一个看似微小却频繁发生的问题正悄然影响着用户体验——Token用尽导致的服务中断。 设…

作者头像 李华
网站建设 2026/5/1 6:16:49

黑白照片变彩色只需一步!DDColor修复工作流全解析

黑白照片变彩色只需一步!DDColor修复工作流全解析 在家庭相册的角落里,泛黄的老照片静静躺着——祖父母站在老屋前微笑,斑驳的砖墙映着上世纪的阳光。这些画面承载记忆,却因岁月褪去了色彩。如今,AI正悄然改变这一切&a…

作者头像 李华
网站建设 2026/5/1 18:03:15

AlwaysOnTop:让重要窗口永远在最前的高效神器

AlwaysOnTop:让重要窗口永远在最前的高效神器 【免费下载链接】AlwaysOnTop Make a Windows application always run on top 项目地址: https://gitcode.com/gh_mirrors/al/AlwaysOnTop 你是否经常在多个窗口间来回切换,只为找到那个重要的参考文…

作者头像 李华