使用Qwen3-TTS-12Hz-1.7B-CustomVoice构建多角色对话系统-开发者社区

使用Qwen3-TTS-12Hz-1.7B-CustomVoice构建多角色对话系统

你有没有想过，给游戏里的每个NPC配上独一无二的声音，或者让广播剧里的角色自己“开口说话”？以前这可能需要专业的配音演员和复杂的后期制作，但现在，事情变得简单多了。

最近我在尝试一个叫Qwen3-TTS-12Hz-1.7B-CustomVoice的语音生成模型，发现它特别适合用来做多角色对话。它内置了9种不同的预设音色，从温柔的女声到沉稳的男声，从中文到日语、韩语、英语都有覆盖。更重要的是，你可以用简单的自然语言指令去调整每个角色的语气、情感，甚至说话节奏。

这意味着，你不需要去克隆谁的声音，也不需要复杂的训练，就能快速搭建起一个有多个“说话人”的对话系统。无论是给游戏增加沉浸感，还是批量制作有声内容，这套方案都能帮你省下大量时间和成本。

下面我就来分享一下，怎么用这个模型，一步步构建你自己的多角色对话世界。

1. 为什么选择Qwen3-TTS来做多角色对话？

在开始动手之前，我们先搞清楚这个模型到底好在哪里。我对比过几个开源的TTS方案，发现Qwen3-TTS-12Hz-1.7B-CustomVoice有几个特别适合我们场景的优点。

第一是音色足够多，而且质量稳定。模型自带了9个预设的说话人，每个都有鲜明的特点。比如“Vivian”是那种明亮、略带锋芒的年轻女声，适合性格直率的角色；“Uncle_Fu”则是沉稳的男性声音，音色低沉圆润，拿来配个长辈或者智者就很合适。这些音色不是随便生成的，而是经过精心设计的，听起来很自然，没有那种机械的“AI感”。

第二是用起来特别简单。你不需要准备任何参考音频，也不用做声音克隆的训练。想要哪个角色说话，直接指定对应的说话人名字就行。如果想微调一下语气，比如让某个角色“用特别愤怒的语气说”，或者“带着悲伤的情绪”，直接在指令里加上一句自然语言描述，模型就能理解并执行。

第三是支持流式生成，延迟很低。官方数据说首包延迟能到97毫秒，虽然我们实际用起来可能没那么快，但生成一段几秒钟的语音，基本上就是一两秒的事。这对于需要实时反馈的场景，比如游戏里的对话系统，或者交互式的语音应用，是个很大的优势。

最后是语言支持广。9个预设音色覆盖了中文、英语、日语、韩语四种语言，而且模型本身支持10种语言的文本输入。这意味着你不仅可以做中文对话，还可以做跨语言的场景，比如一个游戏里既有说中文的NPC，也有说英语的游客。

当然它也不是完美的。比如预设音色只有9个，如果你需要非常特殊或者大量的角色，可能就不够用。但对于大多数中小型项目——比如一个独立游戏、一部广播剧、或者一套教学对话——这9个音色经过灵活组合和指令调整，已经能创造出相当丰富的听觉体验了。

2. 快速搭建你的第一个双人对话场景

理论说再多，不如动手试一下。我们先从一个最简单的场景开始：构建一段两个角色的对话。

假设我们想制作一段广播剧的片段，角色A（Vivian，年轻女性）和角色B（Ryan，英语男性）在争吵。我们不需要安装复杂的本地环境，可以直接用Hugging Face上现成的演示空间来体验。

不过，如果你想集成到自己的项目里，或者进行批量生成，本地部署还是更靠谱。安装过程其实不复杂。

# 1. 创建一个Python虚拟环境（推荐，避免包冲突） conda create -n qwen-tts-demo python=3.10 -y conda activate qwen-tts-demo # 2. 安装核心的Qwen3-TTS包 pip install qwen-tts # 3. 如果你有NVIDIA显卡，并且想加速，可以安装flash-attention # 注意：这个包在Windows上可能有点麻烦，如果安装失败可以先跳过 pip install -U flash-attn --no-build-isolation

环境准备好之后，我们来写第一段代码。这段代码会加载模型，并让两个角色依次说一句话。

import torch import soundfile as sf from qwen_tts import Qwen3TTSModel # 加载CustomVoice模型 # 第一次运行会自动从网上下载模型文件，大概12GB左右 print("正在加载模型，请稍候...") model = Qwen3TTSModel.from_pretrained( "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice", device_map="auto", # 自动选择GPU或CPU torch_dtype=torch.float16, # 用半精度节省显存 ) print("模型加载完成！") # 角色A（Vivian）的台词 - 用中文，带着愤怒 text_a = "你凭什么擅自决定？这个项目我付出了多少心血你知道吗！" wav_a, sr_a = model.generate_custom_voice( text=text_a, language="Chinese", speaker="Vivian", instruct="用特别愤怒、激动的语气说，语速稍快" # 自然语言控制语气 ) # 角色B（Ryan）的台词 - 用英语，试图冷静解释 text_b = "Look, I understand you're upset, but we have to consider the bigger picture here." wav_b, sr_b = model.generate_custom_voice( text=text_b, language="English", speaker="Ryan", instruct="用冷静、理性但略带歉意的语气说" ) # 把两段音频保存下来 sf.write("role_a_angry.wav", wav_a[0], sr_a) sf.write("role_b_calm.wav", wav_b[0], sr_b) print(f"音频已保存！采样率：{sr_a}Hz") print("可以播放 role_a_angry.wav 和 role_b_calm.wav 听听效果。")

运行这段代码，你会得到两个WAV文件。听听看，是不是能明显感觉到两个角色不同的性格和情绪？Vivian的愤怒是外放的、急促的，而Ryan虽然说着英语，但那种试图安抚对方的克制感也能听出来。

这就是最基础的用法：换一个speaker参数，就换了一个声音；改一句instruct描述，就换了一种情绪。你可以像搭积木一样，组合出不同的对话片段。

3. 设计并管理你的角色声音库

当你需要管理超过两三个角色时，把所有参数都写在代码里就会变得很乱。一个好的做法是建立一个“角色声音库”，把每个角色的配置信息集中管理。

下面我设计了一个简单的CharacterVoiceManager类，你可以参考这个思路来管理你的角色。

import json from dataclasses import dataclass from typing import List, Dict @dataclass class CharacterVoice: """定义一个角色的声音配置""" name: str # 角色名字，比如“精灵长老” speaker: str # 对应的预设说话人，如“Vivian” language: str # 主要使用语言，如“Chinese” default_instruct: str # 默认的语气指令，如“用苍老、缓慢、充满智慧的语气说” description: str # 角色描述，用于提示 class CharacterVoiceManager: """角色声音管理器""" def __init__(self, model): self.model = model self.characters: Dict[str, CharacterVoice] = {} def add_character(self, char: CharacterVoice): """添加一个角色""" self.characters[char.name] = char print(f"已添加角色：{char.name} -> {char.speaker}") def speak(self, character_name: str, text: str, custom_instruct: str = None): """让指定角色说一段话""" if character_name not in self.characters: raise ValueError(f"角色 '{character_name}' 未定义") char = self.characters[character_name] # 如果提供了自定义指令就用自定义的，否则用默认的 instruct = custom_instruct if custom_instruct else char.default_instruct wav, sr = self.model.generate_custom_voice( text=text, language=char.language, speaker=char.speaker, instruct=instruct ) return wav[0], sr, char def save_to_file(self, filename: str): """把角色配置保存到文件""" data = [] for char in self.characters.values(): data.append({ 'name': char.name, 'speaker': char.speaker, 'language': char.language, 'default_instruct': char.default_instruct, 'description': char.description }) with open(filename, 'w', encoding='utf-8') as f: json.dump(data, f, ensure_ascii=False, indent=2) print(f"角色配置已保存到 {filename}") def load_from_file(self, filename: str): """从文件加载角色配置""" with open(filename, 'r', encoding='utf-8') as f: data = json.load(f) self.characters.clear() for item in data: char = CharacterVoice(**item) self.characters[char.name] = char print(f"从 {filename} 加载了 {len(self.characters)} 个角色") # 使用示例：创建一个奇幻游戏的角色库 def create_fantasy_characters(model): manager = CharacterVoiceManager(model) # 添加几个经典奇幻角色 manager.add_character(CharacterVoice( name="精灵长老", speaker="Uncle_Fu", language="Chinese", default_instruct="用苍老、缓慢、充满智慧且庄严的语气说", description="森林精灵族的长老，活了几千年，声音沉稳有力" )) manager.add_character(CharacterVoice( name="人类骑士", speaker="Ryan", language="English", # 设定为说英语的角色 default_instruct="用坚定、勇敢、略带疲惫的战士语气说", description="王国忠诚的骑士，经历过多次战役" )) manager.add_character(CharacterVoice( name="神秘女巫", speaker="Vivian", language="Chinese", default_instruct="用神秘、空灵、略带诱惑的语气说，语速缓慢", description="居住在沼泽深处的女巫，声音充满魔力" )) manager.add_character(CharacterVoice( name="活泼妖精", speaker="Ono_Anna", # 使用日语女声音色，但可以说中文 language="Chinese", default_instruct="用极高音调、轻快、活泼得像在唱歌的语气说，语速很快", description="森林里的小妖精，永远充满好奇心" )) return manager # 初始化并使用 model = Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice", device_map="auto", torch_dtype=torch.float16) manager = create_fantasy_characters(model) # 现在可以让角色们对话了 audio1, sr1, char1 = manager.speak("精灵长老", "年轻的骑士，古老的预言正在应验。黑暗即将苏醒，我们需要你的剑。") audio2, sr2, char2 = manager.speak("人类骑士", "My sword is yours, elder. I have sworn to protect these lands.") audio3, sr3, char3 = manager.speak("活泼妖精", "哇！是骑士耶！你要去打大怪兽吗？可以带上我吗？我飞得可快了！") # 保存对话 sf.write("elder.wav", audio1, sr1) sf.write("knight.wav", audio2, sr2) sf.write("fairy.wav", audio3, sr3) # 把角色配置保存下来，下次直接用 manager.save_to_file("fantasy_characters.json")

这个管理器的好处很明显。首先，配置和代码分离了，你要修改某个角色的声音特点，不用去翻找代码，直接改配置文件就行。其次，它让角色“说话”的代码变得非常简洁，一句manager.speak(“角色名”, “台词”)就够了，可读性很高。

你可以根据自己的项目需要，扩展这个管理器。比如加上情感状态（同一个角色在不同场景下语气不同），或者加上音效处理（给妖精的声音加点回声，给女巫的声音加点混响），让整个对话系统更加丰满。

4. 构建完整的对话流程与批量生成脚本

有了角色管理器，我们就可以设计更复杂的对话流程了。一个常见的需求是：我有一个剧本，里面标记了谁在什么时候说什么话，怎么批量生成所有音频，并且确保它们能按顺序播放？

下面这个DialogueProcessor类就是干这个的。它读取一个结构化的对话脚本，然后按顺序生成所有音频，最后还能把它们合并成一个完整的文件，方便播放。

import os from pydub import AudioSegment # 需要安装 pydub: pip install pydub class DialogueProcessor: """对话剧本处理器""" def __init__(self, voice_manager, output_dir="dialogue_output"): self.manager = voice_manager self.output_dir = output_dir os.makedirs(output_dir, exist_ok=True) def process_script(self, script: List[Dict], base_filename: str): """ 处理一个对话剧本 script格式示例： [ {"character": "精灵长老", "text": "欢迎来到翡翠森林。", "instruct": "用庄严的语气说"}, {"character": "人类骑士", "text": "感谢您的接待，长者。", "instruct": None}, {"character": "活泼妖精", "text": "有客人！有客人！", "instruct": "用兴奋的语气大喊"}, ] """ print(f"开始处理剧本，共 {len(script)} 句对话...") audio_segments = [] # 保存所有音频段 silence = AudioSegment.silent(duration=500) # 500毫秒的静音，作为对话间隔 for i, line in enumerate(script): character = line["character"] text = line["text"] custom_instruct = line.get("instruct") # 可选的，覆盖默认指令 print(f" 生成第{i+1}句: [{character}] {text[:30]}...") # 生成这一句的音频 wav_data, sr, char_obj = self.manager.speak(character, text, custom_instruct) # 临时保存单个文件 temp_filename = os.path.join(self.output_dir, f"line_{i:03d}_{character}.wav") sf.write(temp_filename, wav_data, sr) # 用pydub加载，并添加到列表 audio = AudioSegment.from_wav(temp_filename) audio_segments.append(audio) audio_segments.append(silence) # 每句后面加个停顿 # 也可以选择不删除临时文件，方便调试 # os.remove(temp_filename) # 合并所有音频段（去掉最后一个多余的静音） if audio_segments: combined_audio = audio_segments[0] for seg in audio_segments[1:-1]: # 跳过第一个，合并到倒数第二个 combined_audio += seg # 保存合并后的完整对话 final_filename = os.path.join(self.output_dir, f"{base_filename}_full.wav") combined_audio.export(final_filename, format="wav") print(f"剧本处理完成！完整对话已保存为: {final_filename}") print(f"总时长: {len(combined_audio)/1000:.1f} 秒") return final_filename # 使用示例：处理一个完整的场景 def run_full_dialogue_example(): # 假设我们已经有了模型和角色管理器 model = Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice", device_map="auto", torch_dtype=torch.float16) manager = create_fantasy_characters(model) processor = DialogueProcessor(manager, output_dir="fantasy_dialogue") # 定义一个完整的对话场景 scene_script = [ { "character": "精灵长老", "text": "远道而来的旅人，我能感受到你心中的迷茫。翡翠森林已经很久没有人类踏足了。", "instruct": "用缓慢、深邃、带着回音感的语气说" # 覆盖默认指令，增加神秘感 }, { "character": "人类骑士", "text": "Forgive my intrusion, wise one. I seek the Crystal of Dawn, said to be guarded by your kin.", "instruct": None # 使用默认指令 }, { "character": "精灵长老", "text": "黎明水晶...那是一件危险的圣物。它确实在这里，但守护它的不仅是精灵，还有古老的诅咒。", "instruct": "语气变得严肃、低沉" }, { "character": "活泼妖精", "text": "长老长老！这个人类闪闪发光的！他的盔甲会反光！", "instruct": "用极度兴奋、叽叽喳喳的语气快速说" }, { "character": "人类骑士", "text": "I am prepared to face any trial. My kingdom... my people are depending on me.", "instruct": "用坚定、但流露出些许悲伤的语气说" }, { "character": "精灵长老", "text": "那么，请随我来吧。但记住，在森林深处，你看到的未必是真实的，听到的也未必是谎言。", "instruct": "恢复庄严但略带警告的语气" } ] # 处理整个剧本 final_audio = processor.process_script(scene_script, "forest_intro") print("\n对话生成完毕！你可以播放完整的音频文件，体验多角色对话的效果。") print("如果需要，单个角色的每句台词也保存在 fantasy_dialogue/ 文件夹里。") # 注意：第一次运行需要安装pydub，并且可能需要安装ffmpeg # pip install pydub # 在Ubuntu上: sudo apt install ffmpeg # 在Mac上: brew install ffmpeg # 在Windows上: 从官网下载ffmpeg并添加到PATH

这个脚本把整个工作流程都自动化了。你只需要准备好一个JSON格式的剧本，指定好谁说什么话、用什么语气，它就能给你生成一个完整的、带停顿的对话音频。这对于制作游戏对话、广播剧片段、或者外语学习对话材料，都非常有用。

5. 进阶技巧：让对话更自然、更有感染力

基本的对话生成已经没问题了，但如果你想让角色们“演”得更好，这里还有一些小技巧可以试试。

技巧一：利用指令微调情感强度。模型对自然语言指令的理解能力挺强的，你可以描述得很具体。比如同样是“愤怒”，你可以试试这些不同的指令：

“用稍微有点不满的语气说”– 轻度不悦
“用愤怒的语气说”– 标准的愤怒
“用极度愤怒、几乎在吼叫的语气说”– 强烈的情绪
“用压抑着怒火、咬牙切齿的语气说”– 克制的愤怒

多试几次，你就能找到最适合角色和场景的那种表达。

技巧二：控制语速和节奏。指令里也可以控制说话的节奏，这对塑造角色性格很有帮助。

“用缓慢、深思熟虑的语气说，在重要词语前停顿”– 适合长者、智者
“用轻快、活泼的语气说，语速很快像连珠炮”– 适合年轻活泼的角色
“用疲惫、拖长的语调说，在句子中间叹气”– 适合历经沧桑的角色

技巧三：同一个说话人，不同的“变体”。虽然只有9个预设音色，但你可以通过指令，让同一个音色表现出不同的年龄感或状态。比如都用“Vivian”这个音色：

“用年轻女孩清脆的声音说”– 接近原设
“压低嗓音，用成熟女性的语气说”– 听起来会更成熟些
“带着哭腔，用哽咽的声音说”– 表现悲伤
“模仿老年女性的声音，语速缓慢”– 虽然不可能完全像老人，但语气上会有变化

技巧四：后期音效加成。生成出来的音频是干净的干声，你可以用简单的音频编辑软件（比如Audacity，免费开源）或者Python的pydub库，给音频加点效果，性价比很高。

混响：给精灵长老、女巫这类神秘角色加上，听起来像在山洞或大殿里说话。
回声：给巨龙、巨人这类庞大生物加上，显得声音更有空间感。
电话音效：如果要做现代场景的远程通话。
音量平衡：确保所有角色的音量大小差不多，听起来舒服。

这里有一段用pydub添加简单效果的示例代码：

from pydub import AudioSegment from pydub.effects import compress_dynamic_range, low_pass_filter def apply_effects(input_wav, output_wav, effect_type="reverb"): """给音频添加简单效果""" audio = AudioSegment.from_wav(input_wav) if effect_type == "reverb": # 模拟一个简单的混响：把音频稍微延迟、降低音量后叠加到原声上 dry = audio - 6 # 原声降低6分贝 wet = audio - 12 # 效果声降低12分贝 wet = wet.pan(-0.3) # 稍微偏左 # 创建一个延迟的版本（50毫秒） delayed = AudioSegment.silent(duration=50) + wet combined = dry.overlay(delayed) combined.export(output_wav, format="wav") elif effect_type == "low_pass": # 低通滤波，让声音听起来像通过老旧收音机 filtered = low_pass_filter(audio, 2000) # 过滤掉2000Hz以上的频率 # 再加点压缩，模拟广播感 compressed = compress_dynamic_range(filtered, threshold=-20.0, ratio=4.0) compressed.export(output_wav, format="wav") print(f"效果已添加: {effect_type} -> {output_wav}") # 使用示例 # apply_effects("knight.wav", "knight_reverb.wav", effect_type="reverb")

这些小技巧都不难，但组合起来，能让你的对话系统从“能听”升级到“好听”，从“机械”升级到“生动”。

6. 实际应用场景与效果评估

这套方案我已经在几个小项目里实际用过了，分享一下真实感受和效果。

场景一：独立游戏NPC对话。一个朋友在做一款2D奇幻冒险游戏，预算有限请不起配音演员。我用这套方案帮他生成了大概50句NPC台词，涉及6个角色。实际效果超出预期。玩家反馈说，虽然能听出是AI生成的声音，但每个角色的辨识度很高，精灵的声音空灵，矮人的声音粗犷，大大增强了游戏的沉浸感。最重要的是，成本几乎为零，而且后期修改台词特别方便——改个文本重新生成就行，不用重新联系配音演员。

场景二：外语学习对话材料。我自己尝试用它生成了一些生活化的英文对话场景，比如“在餐厅点餐”、“在机场问路”。用“Ryan”和“Serena”这两个音色生成对话，语速适中，发音清晰，比很多教科书附带的录音要自然。而且可以快速生成大量不同主题的对话，对于口语练习很有帮助。

场景三：广播剧概念验证。我们用它快速生成了一段5分钟的多角色科幻广播剧片段，用来向投资方展示创意。虽然最终成品肯定需要专业配音，但这个快速原型让投资方立刻理解了角色的性格设定和戏剧冲突，效果很好。

关于生成质量，我的主观评价是：

清晰度：9/10。每个字都听得清清楚楚，没有含糊不清的地方。
自然度：7/10。整体流畅，但仔细听还是能发现一些语调的细微处不太像真人，比如某些句尾的升降调有点模式化。
情感表达：7.5/10。对于“愤怒”、“悲伤”、“兴奋”这些基础情绪，表达得挺到位。但更细腻的、复杂的情感（比如“苦笑着说的讽刺话”）就比较难实现。
音色区分度：8.5/10。9个预设音色之间差异明显，很容易区分。通过指令调整后，同一个音色也能有一些变化。

关于生成速度，在我的RTX 3060显卡（12GB显存）上，生成一句10个字左右的中文，大概需要2-3秒。生成一句15个单词的英文句子，大概需要3-4秒。这个速度对于预先生成对话内容（比如游戏配音）完全够用。如果是需要实时响应的场景，可能就需要更强大的显卡，或者考虑使用更小的0.6B参数版本。

遇到的挑战和解决办法：

长句子有时会“断气”：生成特别长的句子时，偶尔会出现中间不自然的停顿，像喘不过气。解决办法：把长句子拆分成几个短句分别生成，再用音频软件拼接起来。
某些指令理解不准：比如“用 sarcastic 的语气说”，模型可能不太理解这种复杂情感。解决办法：用更具体、更直白的描述，比如“用表面上夸奖但实际上讽刺的语气说”。
多角色对话的音量平衡：不同音色生成的音频音量大小不一致。解决办法：用pydub的normalize功能统一音量，或者在后期软件里手动调整。

7. 总结

用Qwen3-TTS-12Hz-1.7B-CustomVoice来构建多角色对话系统，给我的感觉就像发现了一个好用的“声音工具箱”。它可能不是万能的，不能完全替代专业配音，但对于预算有限、需要快速原型验证、或者追求灵活性的项目来说，它提供了一个非常实用的解决方案。

整个过程的核心思路很清晰：用预设音色定义角色基础声音，用自然语言指令调整情感和语气，用代码管理对话流程和批量生成。这套组合拳打下来，你就能从一个完全不懂语音合成的小白，变成能产出像模像样多角色对话内容的生产者。

我特别喜欢它的两点：一是开箱即用，省去了训练和调试的麻烦；二是控制方式很直观，用说话的方式去调整声音，不需要碰那些让人头疼的技术参数。

如果你也想试试，我的建议是从小场景开始。先别想着做一部完整的广播剧，而是先做一段两个角色的30秒对话，感受一下整个流程。熟悉了之后，再逐步增加角色复杂度，尝试不同的情感指令，最后加上一些简单的音效后期。

技术永远在进步，也许明年会有更强大的模型出现。但今天，Qwen3-TTS已经给了我们一个足够好的起点，让我们能用很低门槛的方式，把“无声”的文本剧本，变成“有声”的生动世界。这本身就是一件挺酷的事。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

使用Qwen3-TTS-12Hz-1.7B-CustomVoice构建多角色对话系统