ComfyUI工作流中能否集成VoxCPM-1.5-TTS-WEB-UI实现语音输出节点？-开发者社区

ComfyUI 工作流中集成 VoxCPM-1.5-TTS-WEB-UI 实现语音输出的可行性与实践

在当前 AIGC 内容创作日益追求“多模态融合”的背景下，图像、文本和语音之间的界限正在被迅速打破。一个典型的 AI 创作流程不再只是生成一张图或一段文字——越来越多的应用场景要求系统能自动为 AI 角色配音、为图文故事配上旁白，甚至实时驱动虚拟主播进行音视频同步播报。

ComfyUI 作为基于节点式架构的 Stable Diffusion 可视化推理工具，因其高度模块化和可扩展性，已成为复杂生成流程的事实标准之一。而与此同时，中文语音合成技术也在快速演进，VoxCPM-1.5-TTS-WEB-UI凭借其高保真音频输出与轻量级部署能力，成为本地化 TTS 部署的理想选择。

那么问题来了：我们能否将这两个系统打通，在 ComfyUI 的工作流中直接添加一个“语音输出”节点，让整个内容生成链条从“看”延伸到“听”？

答案是肯定的，并且实现路径比想象中更清晰。

VoxCPM-1.5-TTS-WEB-UI 是什么？它适合做远程语音服务吗？

首先要明确一点：VoxCPM-1.5-TTS-WEB-UI 并不是一个独立模型，而是围绕 VoxCPM-1.5-TTS 模型封装的一套 Web 推理界面。它的核心价值不在于创新算法，而在于极大降低了语音合成系统的使用门槛。

这套系统通常以 Docker 镜像形式发布，内置完整的 Python 环境、PyTorch 框架、预训练权重以及一个基于 Flask 或 FastAPI 的后端服务。启动后会监听6006端口，提供一个简洁的网页界面供用户输入文本并生成语音。

更重要的是，它暴露了标准 HTTP API 接口，比如/tts路由可以接收 JSON 格式的请求体，返回 Base64 编码的 WAV 音频数据。这意味着即使你不打开浏览器，也可以通过编程方式调用它——这正是集成的关键前提。

为什么它适合作为 ComfyUI 的外部语音节点？

高采样率支持（44.1kHz）
大多数开源 TTS 模型仍停留在 16kHz 或 24kHz 输出水平，听起来有明显的“机械感”。而 VoxCPM 支持 44.1kHz 输出，保留了人声中的高频泛音细节，更适合用于有声书、播客、虚拟主播等对音质敏感的场景。
低标记率设计（6.25Hz）提升效率
它采用离散语音标记建模（类似 EnCodec），将语音序列压缩成稀疏 token 流。这种设计显著减少了自回归生成过程中的计算负担，使得推理速度更快、显存占用更低——这对部署在消费级 GPU 上尤为重要。
开箱即用的镜像化部署
不需要手动安装依赖、下载模型权重、配置环境变量。一条docker run命令即可拉起完整服务，非常适合非专业运维人员快速搭建语音服务器。
Web UI + API 双模式运行
即使你主要用代码调用，图形界面依然可用于调试、测试音色效果或展示给团队成员预览结果。

这些特性共同决定了：VoxCPM-1.5-TTS-WEB-UI 不仅可用，而且非常适合作为 ComfyUI 工作流中的远程语音服务节点。

ComfyUI 的插件机制是否允许接入外部 API？

ComfyUI 的底层架构本质上是一个基于 Python 的节点图执行引擎。每个功能模块都是一个“节点”，节点之间通过定义好的输入/输出类型传递数据。虽然原生节点主要用于图像生成流程（如 CLIP 编码、采样器、VAE 解码等），但其插件系统完全开放，允许开发者注册自定义节点。

关键点如下：

所有自定义节点需放置于custom_nodes/目录下；
节点行为由 Python 类定义，可通过requests、subprocess、socket等方式调用外部资源；
输入参数支持字符串、数字、布尔值等多种类型，完全可以承载文本内容与语音控制参数；
输出可返回文件路径或二进制数据结构，供后续节点处理（如保存、播放、上传 CDN）；
支持异步操作（可通过线程池避免阻塞 UI），适用于耗时较长的任务如 TTS 合成。

换句话说，只要你的外部服务提供了可访问的接口，ComfyUI 就有能力将其封装成一个可视化节点。对于基于 HTTP 的 TTS 服务来说，这几乎是天然契合的。

如何构建一个连接 VoxCPM 的语音节点？

设想这样一个典型的工作流：

用户输入一段文案；
经过 LLM 简化或润色（可选）；
输入到 TTS 节点；
自动调用远程 VoxCPM 服务生成语音；
返回音频文件并在 UI 中预览；
最终与其他媒体（如图像、视频）合并输出。

要实现这个流程，我们需要创建一个名为VoxCPMTTSNode的自定义节点，负责发起 HTTP 请求并与远程服务通信。

下面是一个经过优化的实现示例：

# custom_nodes/comfyui_voxcpm_tts.py import requests import base64 import os from io import BytesIO import folder_paths class VoxCPMTTSNode: @classmethod def INPUT_TYPES(cls): return { "required": { "text": ("STRING", {"multiline": True, "default": "欢迎使用AI语音合成"}), "speaker": (["female", "male"], {"default": "female"}), "speed": ("FLOAT", {"default": 1.0, "min": 0.5, "max": 2.0, "step": 0.1}), "tts_host": ("STRING", {"default": "http://127.0.0.1:6006/tts"}) } } RETURN_TYPES = ("AUDIO",) FUNCTION = "generate_speech" CATEGORY = "audio" def generate_speech(self, text, speaker, speed, tts_host): payload = { "text": text.strip(), "speaker_id": 0 if speaker == "female" else 1, "speed": speed } try: headers = {'Content-Type': 'application/json'} response = requests.post(tts_host, json=payload, headers=headers, timeout=30) response.raise_for_status() data = response.json() if data.get("status") != "success": raise Exception(f"TTS service error: {data.get('message')}") wav_base64 = data["wav"] audio_data = base64.b64decode(wav_base64) # 写入输出目录 output_dir = folder_paths.get_output_directory() filename = "tts_output.wav" output_path = os.path.join(output_dir, filename) with open(output_path, 'wb') as f: f.write(audio_data) # 返回兼容 ComfyUI 的 AUDIO 数据格式 return ({ "filename": filename, "subfolder": "", "type": "output" },) except requests.exceptions.Timeout: raise Exception("TTS 请求超时，请检查网络或服务响应性能") except requests.exceptions.ConnectionError: raise Exception("无法连接到 TTS 服务，请确认服务已启动且地址正确") except Exception as e: raise Exception(f"语音生成失败：{str(e)}") NODE_CLASS_MAPPINGS = { "VoxCPM TTS": VoxCPMTTSNode } NODE_DISPLAY_NAME_MAPPINGS = { "VoxCPM TTS": "🔊 VoxCPM 文本转语音" }

这段代码做了几件关键的事：

定义了一个带多行文本输入、说话人选择、语速调节和自定义服务地址的节点；
使用标准requests库向远程/tts接口发送 POST 请求；
成功响应后解析 Base64 音频流，写入 ComfyUI 的输出目录；
返回符合 ComfyUI 文件引用规范的数据结构，确保后续节点可识别；
包含详细的异常捕获机制，提升稳定性与用户体验。

只需将此脚本保存为comfyui_voxcpm_tts.py并放入custom_nodes/文件夹，重启 ComfyUI 后就能在节点菜单中看到新的“语音合成”选项。

实际应用中的架构设计与注意事项

理想情况下，我们可以将整个系统拆分为两个独立运行的服务：

组件	功能
ComfyUI 主控端	负责整体工作流调度、图像生成、逻辑编排
VoxCPM TTS 服务端	专注语音合成任务，常驻运行于同一局域网或云服务器

两者通过 HTTP 协议通信，形成松耦合架构。这样的设计带来了多个优势：