Qwen Code + vLLM + Qwen3-Coder 构建本地私有化开发助手-开发者社区

一、Qwen Code

Qwen Code是一款类似于Claude Code的AI编程助手，由阿里通义千问团队推出，一定程度上可以作为Claude Code的平替工具，本文通过Qwen Code+vLLM+Qwen3-Coder-30B-A3B-Instruct构建纯内网下私服级开发辅助引擎，主要流程如下所示：

实验主要依赖的版本如下：

torch==2.6.0transformers==4.51.3modelscope==1.23.1vllm==0.8.4

二、vLLM 部署 Qwen3-Coder-30B-A3B-Instruct

使用modelscope下载Qwen3-Coder-30B-A3B-Instruct模型到本地：

modelscope download--model="Qwen3-Coder-30B-A3B-Instruct"--local_dirQwen3-Coder-30B-A3B-Instruct

然后使用vLLM读取模型启动API服务。

exportCUDA_VISIBLE_DEVICES=0,1vllm serve"Qwen3-Coder-30B-A3B-Instruct"\--host0.0.0.0\--port8060\--dtypebfloat16\--tensor-parallel-size2\--cpu-offload-gb0\--gpu-memory-utilization0.8\--max-model-len65536\--api-key token-abc123\--enable-prefix-caching\--enable-auto-tool-choice\--tool-call-parser hermes\--trust-remote-code

关键参数说明：

export CUDA_VISIBLE_DEVICES=0,1：指定所使用的GPU。
dtype: 数据类型，其中bfloat16，16位浮点数，适合NVIDIA A100等设备。
tensor-parallel-size：Tensor并行的数量，当多GPU分布式推理时使用，建议和GPU的数量一致。
cpu-offload-gb：允许将部分模型权重或中间结果卸载到CPU的内存中，单位为GB，模拟GPU内存扩展，如果部署的模型大于了显存大小可以设置该参数，但是推理速度会大大下降。
gpu-memory-utilization：设置GPU内存利用率的上限。
max-model-len：允许模型最大处理的Token数，该参数越大占用显存越大。
enable-prefix-caching：启用前缀缓存减少重复计算。
enable-auto-tool-choice：启用 function call 模式。
tool-call-parser hermes：设置 function call 的解析器。

显存占用情况：

如果启动显存不足，可适当调整gpu-memory-utilization和max-model-len参数，或通过cpu-offload-gb将部分模型权重卸载到内存中（速度会大大折扣）。

启动成功后，可通过/v1/models接口可查看模型列表：

curlhttp://127.0.0.1:8060/v1/models-H"Authorization: Bearer token-abc123"

测试API交互：

curlhttp://127.0.0.1:8060/v1/chat/completions\-H"Content-Type: application/json"\-H"Authorization: Bearer token-abc123"\-d'{ "model": "Qwen3-Coder-30B-A3B-Instruct", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "你是谁"} ] }'

三、安装和配置 Qwen Code

首先安装 Qwen Code 组件，这里采用 npm：

npminstall-g@qwen-code/qwen-code@latest

安装好后，可以输入qwen进入窗口：

配置上面部署的私有模型：

在项目目录下创建.env文件，内容如下所示：

OPENAI_BASE_URL=http://127.0.0.1:8060/v1/OPENAI_API_KEY=token-abc123OPENAI_MODEL=Qwen3-Coder-30B-A3B-Instruct

然后在.env文件同级的目录下唤醒qwen:

按i进入插入模式，然后输入/auth切换认证方式，选择OpenAI，确认信息后即配置成功：

四、 Vibe Coding 测试

这里简单测试下 Vibe Coding ，开发一个H5小游戏和一个前端页面。

4.1 测试 h5 小游戏开发

输入指令：创建一个H5五子棋小游戏

默认情况下，对文件的修改都要用户授权，这里可以先选择是，总是允许：

最终运行使用效果：

4.2 测试前端页面开发

输入指令：实现一个科技感十足的数据分析洞察的前端展示页面，使用H5绘制，需要包含炫酷的图表和动画

最终运行使用效果：

从零实现：基于LVGL的自定义控件渲染逻辑

从零打造专属控件：深入LVGL的渲染内核与自定义实践你有没有遇到过这样的场景？项目需要一个环形滑动条，或者带呼吸光效的智能音箱音量指示器，又或是工业HMI中那种动态仪表盘。翻遍LVGL的标准控件库，却发现——没有一个能…

李华

飞书文档批量导出终极指南：3步搞定全平台文档迁移

飞书文档批量导出终极指南：3步搞定全平台文档迁移【免费下载链接】feishu-doc-export 项目地址: https://gitcode.com/gh_mirrors/fe/feishu-doc-export 还在为成百上千的飞书文档迁移而头疼吗？😫 手动一个个下载不仅效率低下&#…

李华

大模型Token余额提醒：当剩余不足时推送消息引导续费

大模型Token余额提醒：当剩余不足时推送消息引导续费在AI服务日益普及的今天，越来越多企业与个人用户依赖大模型完成内容生成、图像修复、语音处理等高价值任务。然而一个看似微小却频繁发生的问题正悄然影响着用户体验——Token用尽导致的服务中断。设…

李华

【毕业设计】SpringBoot+Vue+MySQL 校园招聘系统平台源码+数据库+论文+部署文档

摘要随着互联网技术的快速发展，校园招聘已成为高校毕业生求职的重要渠道。传统的线下招聘模式存在信息不对称、效率低下等问题，企业和学生之间的沟通成本较高。为优化招聘流程，提升信息匹配效率，开发一款基于现代Web技术的校园招…

李华

黑白照片变彩色只需一步！DDColor修复工作流全解析

黑白照片变彩色只需一步！DDColor修复工作流全解析在家庭相册的角落里，泛黄的老照片静静躺着——祖父母站在老屋前微笑，斑驳的砖墙映着上世纪的阳光。这些画面承载记忆，却因岁月褪去了色彩。如今，AI正悄然改变这一切&a…

李华

AlwaysOnTop：让重要窗口永远在最前的高效神器

AlwaysOnTop：让重要窗口永远在最前的高效神器【免费下载链接】AlwaysOnTop Make a Windows application always run on top 项目地址: https://gitcode.com/gh_mirrors/al/AlwaysOnTop 你是否经常在多个窗口间来回切换，只为找到那个重要的参考文…

李华