Voice Sculptor实操手册：从安装到语音合成的完整流程-开发者社区

Voice Sculptor实操手册：从安装到语音合成的完整流程

1. 快速启动与环境准备

1.1 启动应用

Voice Sculptor 是基于 LLaSA 和 CosyVoice2 指令化语音合成模型进行二次开发的语音生成工具，由科哥团队构建。该系统支持通过自然语言指令定制专属音色风格，适用于内容创作、配音制作、AI角色对话等多种场景。

在部署环境中，首先需要启动 WebUI 服务。执行以下命令即可：

/bin/bash /root/run.sh

成功运行后，终端将输出类似信息：

Running on local URL: http://0.0.0.0:7860

1.2 访问使用界面

启动完成后，在浏览器中打开以下任一地址访问主界面：

http://127.0.0.1:7860
http://localhost:7860

如果您是在远程服务器上部署，请将127.0.0.1替换为实际的公网 IP 地址。

如需重启服务，再次执行上述脚本即可。系统会自动完成以下清理操作：

终止占用 7860 端口的旧进程
清理 GPU 显存资源
重新加载模型并启动新实例

2. 界面功能详解

Voice Sculptor 的 WebUI 设计简洁直观，分为左右两大功能区域，便于用户快速上手。

2.1 左侧：音色设计面板

风格与文本设置（默认展开）

组件	功能说明
风格分类	可选择“角色风格”、“职业风格”或“特殊风格”三大类
指令风格	在选定分类下选择具体的声音模板（如“幼儿园女教师”）
指令文本	描述目标声音特征的自然语言提示词（≤200字）
待合成文本	输入希望语音合成的具体内容（≥5字）

当选择预设风格时，系统会自动填充对应的指令文本和示例语句，方便直接试用。

细粒度声音控制（可选折叠）

提供对声音多个维度的精确调节，包括：

年龄：小孩 / 青年 / 中年 / 老年
性别：男性 / 女性
音调高度：音调很高 → 音调很低
音调变化：变化很强 → 变化很弱
音量：音量很大 → 音量很小
语速：语速很快 → 语速很慢
情感：开心 / 生气 / 难过 / 惊讶 / 厌恶 / 害怕

建议保持细粒度参数与指令文本描述一致，避免冲突导致效果失真。

最佳实践指南（默认折叠）

包含推荐写法、常见误区及优化建议，帮助用户提升音色设计质量。

2.2 右侧：生成结果面板

组件	功能说明
生成音频按钮	点击后开始合成语音，等待约 10–15 秒
生成音频 1/2/3	展示三次不同采样结果，体现模型随机性
下载图标	支持点击下载生成的`.wav`文件

每次生成会输出三个略有差异的音频版本，供用户挑选最满意的一版。

3. 核心使用流程

3.1 方式一：使用预设模板（推荐新手）

适合初次使用者快速体验高质量音色效果。

选择风格分类
点击“风格分类”下拉菜单，选择“角色风格”、“职业风格”或“特殊风格”。
选择具体模板
在“指令风格”中选择一个具体选项（如“成熟御姐”）。
查看自动填充内容
- “指令文本”将显示详细的声音描述
- “待合成文本”将填入匹配场景的示例句子
可选修改
- 修改“待合成文本”以适配您的需求
- 微调“指令文本”增强个性化表达
生成音频
点击“🎧 生成音频”按钮，等待合成完成。
试听与保存
试听三组结果，点击下载图标保存所需音频文件。

3.2 方式二：完全自定义音色

适用于有明确声音构想的专业用户。

任意选择一个“风格分类”，然后在“指令风格”中选择“自定义”。
在“指令文本”中输入详细的自然语言描述（参考下一节写法建议）。
输入“待合成文本”内容。
（可选）启用“细粒度控制”进行参数微调。
点击“生成音频”获取结果。

自定义模式下，指令文本的质量直接影响最终音色表现，建议遵循结构化描述原则。

4. 声音风格库与指令编写技巧

4.1 内置18种声音风格概览

角色风格（9种）

风格	特点	典型应用场景
幼儿园女教师	甜美明亮、极慢语速、温柔鼓励	儿童故事、睡前读物
电台主播	音调偏低、微哑、平静忧伤	深夜情感节目
成熟御姐	磁性低音、慵懒暧昧、掌控感强	情感陪伴、角色扮演
年轻妈妈	柔和偏低、温暖安抚、轻柔哄劝	儿歌、育儿内容
小女孩	天真高亢、快节奏、尖锐清脆	动画配音、儿童互动
老奶奶	沙哑低沉、极慢温暖、怀旧神秘	民间传说、怀旧叙事
诗歌朗诵	深沉磁性、顿挫有力、激昂澎湃	诗歌朗读、演讲
童话风格	甜美夸张、跳跃变化、奇幻色彩	童话剧、动画旁白
评书风格	传统说唱、变速节奏、江湖气十足	武侠故事、曲艺表演

职业风格（7种）

风格	特点	典型应用场景
新闻风格	标准普通话、平稳专业、客观中立	新闻播报、资讯解读
相声风格	夸张幽默、时快时慢、起伏大	喜剧内容、脱口秀
悬疑小说	低沉神秘、变速节奏、悬念感强	恐怖小说、惊悚剧
戏剧表演	夸张戏剧、忽高忽低、充满张力	戏剧独白、舞台剧
法治节目	严肃庄重、平稳有力、法律威严	法律科普、案件分析
纪录片旁白	深沉磁性、缓慢画面感、敬畏诗意	自然纪录片、人文历史
广告配音	沧桑浑厚、缓慢豪迈、历史底蕴	商业广告、品牌宣传片

特殊风格（2种）

风格	特点	典型应用场景
冥想引导师	空灵悠长、极慢飘渺、禅意氛围	冥想课程、助眠引导
ASMR	气声耳语、极慢细腻、极度放松	ASMR视频、睡眠辅助

4.2 如何撰写高效的指令文本

✅ 优质指令示例

这是一位男性评书表演者，用传统说唱腔调，以变速节奏和韵律感极强的语速讲述江湖故事，音量时高时低，充满江湖气。

优点分析：

明确人设：男性评书表演者
包含音色特质：传统说唱腔调、变速节奏
描述情绪氛围：江湖气
覆盖多维度：人设 + 音调 + 节奏 + 情绪

❌ 低效指令示例

声音很好听，很不错的风格。

问题所在：

“好听”“不错”为主观评价，无法被模型感知
缺乏具体声音特征描述
无人设、无场景、无技术参数

指令编写五项原则

原则	说明
具体	使用可感知词汇：低沉/清脆/沙哑/明亮、语速快慢、音量大小等
完整	覆盖 3–4 个维度：人设/场景 + 性别/年龄 + 音调/语速 + 音质/情绪
客观	描述声音本身，避免“我喜欢”“很棒”等主观判断
不做模仿	不要写“像某某明星”，只描述声音特质
精炼	每个词都应传递有效信息，避免重复强调（如“非常非常”）

5. 细粒度控制策略与最佳实践

5.1 参数对照表

控制项	可选值
年龄	不指定 / 小孩 / 青年 / 中年 / 老年
性别	不指定 / 男性 / 女性
音调高度	不指定 / 音调很高 → 音调很低
音调变化	不指定 / 变化很强 → 变化很弱
音量	不指定 / 音量很大 → 音量很小
语速	不指定 / 语速很快 → 语速很慢
情感	不指定 / 开心 / 生气 / 难过 / 惊讶 / 厌恶 / 害怕

5.2 使用建议

保持一致性
细粒度参数必须与指令文本描述相符。例如，若指令中描述“低沉缓慢”，则不应在“音调高度”中选择“音调很高”。
非必要不填写
多数情况下保持“不指定”即可，让模型根据指令自动推断。仅在需要微调时才启用特定参数。

组合使用示例

目标效果：年轻女性兴奋地宣布好消息

指令文本：一位年轻女性，用明亮高亢的嗓音，以较快的语速兴奋地宣布好消息。 细粒度控制： - 年龄：青年 - 性别：女性 - 语速：语速较快 - 情感：开心

6. 常见问题与解决方案

Q1：生成音频需要多久？

通常耗时10–15 秒，受以下因素影响：

文本长度
GPU 性能
当前显存占用情况

Q2：为什么相同输入生成的音频不一样？

这是模型固有的随机性机制所致，旨在提供多样化输出。建议：

多生成几次（3–5次）
从中挑选最符合预期的结果

Q3：音频质量不满意怎么办？

可尝试以下方法优化：

多次生成并筛选最佳结果
优化指令文本，使其更具体、完整
检查细粒度控制是否与指令存在矛盾

Q4：支持多长的文本合成？

单次建议不超过200 字
超长文本建议分段合成，后期拼接

Q5：支持哪些语言？

当前版本仅支持中文。英文及其他语言正在开发中。

Q6：生成的音频保存在哪里？

可通过网页界面直接下载
自动保存至outputs/目录，按时间戳命名
包含 3 个音频文件及metadata.json元数据记录

Q7：出现 CUDA out of memory 错误如何处理？

执行以下清理命令：

# 强制终止 Python 进程 pkill -9 python # 释放 GPU 设备占用 fuser -k /dev/nvidia* # 等待恢复 sleep 3 # 查看显存状态 nvidia-smi

之后重新运行/root/run.sh启动服务。

Q8：端口被占用怎么办？

系统脚本已集成自动清理功能。如需手动处理：

# 查找占用 7860 端口的进程 lsof -i :7860 # 终止相关进程 lsof -ti:7860 | xargs kill -9 # 等待片刻后重启 sleep 2

7. 总结

Voice Sculptor 作为基于 LLaSA 和 CosyVoice2 的二次开发成果，实现了通过自然语言指令精准控制语音风格的能力。其核心优势在于：

易用性强：提供图形化界面与预设模板，降低使用门槛
灵活性高：支持从模板调用到完全自定义的全链路音色设计
可控性好：结合指令文本与细粒度参数实现双重调控
开源开放：项目代码持续更新，社区活跃

无论是内容创作者、播客制作者还是 AI 应用开发者，都可以借助 Voice Sculptor 快速生成符合场景需求的高质量语音内容。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。