Python环境下Qwen3-TTS-12Hz-1.7B-CustomVoice的安装与快速入门-开发者社区

Python环境下Qwen3-TTS-12Hz-1.7B-CustomVoice的安装与快速入门

想不想用几行代码，就让电脑开口说话？而且声音还能选，从温柔的女生到沉稳的大叔，甚至还能带点情绪？今天咱们就来聊聊怎么在Python环境里，快速把Qwen3-TTS-12Hz-1.7B-CustomVoice这个语音合成模型跑起来。

这个模型挺有意思的，它内置了9种预设的高质量音色，你不需要准备任何录音，直接就能用。更厉害的是，你还能用大白话告诉它你想要什么样的声音，比如“用特别愤怒的语气说”，它就能给你生成带情绪的语音。对于想快速给应用加个语音功能，或者做点创意小项目的朋友来说，特别合适。

这篇文章就是带你从零开始，一步步搞定环境搭建，然后写出你的第一个语音合成程序。整个过程不难，跟着做就行。

1. 动手之前：环境准备

在开始写代码之前，我们得先把“舞台”搭好。主要是确保你的电脑上有合适的Python版本和必要的工具。

1.1 检查Python版本

这个模型需要Python 3.8或更高的版本。你可以打开命令行（Windows上是CMD或PowerShell，Mac/Linux上是终端），输入下面的命令来检查：

python --version

或者

python3 --version

如果显示的版本号是3.8、3.9、3.10之类的，那就没问题。如果版本太低，或者提示找不到命令，你需要先去Python官网下载并安装一个新版本。我建议直接安装Python 3.10或3.11，比较稳定。

1.2 准备一个独立的Python环境（强烈推荐）

这是个好习惯，可以避免不同项目之间的软件包版本冲突。我们可以用venv来创建一个干净的“小房间”。

在你的项目文件夹里（比如你新建一个叫qwen_tts_demo的文件夹），打开命令行，执行：

# 创建虚拟环境，环境文件夹名称为‘venv’ python -m venv venv

创建完成后，需要激活这个环境：

在Windows上：
```
venv\Scripts\activate
```
在Mac或Linux上：
```
source venv/bin/activate
```

激活后，你的命令行前面通常会显示(venv)，表示你现在就在这个独立环境里工作了。后面所有的安装操作，都在这个环境下进行。

1.3 安装PyTorch（模型的引擎）

Qwen3-TTS依赖PyTorch来运行。安装命令取决于你是否有NVIDIA的显卡（GPU）。

如果你有NVIDIA显卡，并且安装了CUDA（通常是玩游戏或做AI开发的朋友），为了获得最好的速度，请安装支持CUDA的PyTorch。可以去PyTorch官网根据你的CUDA版本生成安装命令，一个常见的例子是：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

如果你没有NVIDIA显卡，或者不确定，那就安装CPU版本，它能在任何电脑上运行，只是速度会慢一些：

pip install torch torchvision torchaudio

安装完成后，可以开个Python窗口简单验证下：

import torch print(torch.__version__) print("CUDA可用:", torch.cuda.is_available()) # 如果显示True，说明GPU可用

2. 安装Qwen3-TTS核心包及依赖

环境准备好了，现在来安装主角和它需要的“帮手”。

2.1 安装Qwen3-TTS

安装过程很简单，直接用pip命令就行。这个命令会同时安装模型库和它依赖的一些其他包。

pip install qwen-tts

这个包比较大，下载和安装需要一点时间，喝杯茶等一下。

2.2 安装音频处理库

为了能把生成的语音保存成文件，我们还需要一个库来处理WAV音频文件。soundfile是个不错的选择。

pip install soundfile

如果你的系统提示缺少某些底层音频库（比如在Linux上），可能还需要根据提示安装libsndfile。在Ubuntu上可以试试sudo apt-get install libsndfile1。

2.3 （可选但推荐）安装加速库

如果你用的是英伟达显卡，安装flash-attn可以大幅提升模型的推理速度，可能快上好几倍。

pip install -U flash-attn --no-build-isolation

注意：这个库对系统环境要求稍高，如果安装失败或后续运行有问题，可以先跳过，不影响基本功能，只是会慢一点。

好了，至此所有准备工作就完成了。你的“工具箱”已经配齐，接下来就是施展魔法的时候了。

3. 第一个程序：让模型开口说话

理论说了不少，咱们直接上代码，看看效果最实在。创建一个新的Python文件，比如叫first_tts.py。

3.1 最基本的语音生成

我们先来一个最简单的例子，使用内置的“Vivian”音色说一句中文。

import torch import soundfile as sf from qwen_tts import Qwen3TTSModel # 1. 加载模型 print("正在加载模型，第一次运行需要下载，请耐心等待...") model = Qwen3TTSModel.from_pretrained( "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice", # 指定模型 device_map="auto", # 自动选择设备（优先用GPU） torch_dtype=torch.bfloat16, # 使用半精度节省显存 ) print("模型加载完毕！") # 2. 准备要合成的文本 text_to_speak = "大家好，我是由Qwen3-TTS生成的语音，很高兴认识你们。" # 3. 生成语音 # 使用‘custom_voice’模式，并指定说话人‘Vivian’ print("正在生成语音...") audio_data, sample_rate = model.generate_custom_voice( text=text_to_speak, language="Chinese", # 文本语言 speaker="Vivian", # 预设音色 ) # 4. 保存为WAV文件 output_filename = "first_speech.wav" sf.write(output_filename, audio_data[0], sample_rate) print(f"语音生成完成！已保存为: {output_filename}")

把这段代码保存并运行。第一次执行时，它会自动从网上下载模型文件（大约几个GB），所以需要一些时间。下载完成后，你就会在当前文件夹里看到一个first_speech.wav文件，双击听听看！

代码简单解释一下：

from_pretrained: 这是加载模型的标准方法，给定模型名称就会去下载。
device_map=“auto”: 让程序自己决定用CPU还是GPU，有显卡它会自动用上。
generate_custom_voice: 这是调用内置音色生成语音的核心函数。
speaker=“Vivian”: 指定使用9种内置音色中的“Vivian”（一个明亮的年轻女声）。

3.2 换个音色和语言

内置音色不止一个，我们换一个说英语的男声“Ryan”试试。修改一下代码中的相关部分：

# ... 前面加载模型的代码不变 ... text_to_speak = "Hello everyone, this is Ryan speaking. I hope you're having a wonderful day." audio_data, sample_rate = model.generate_custom_voice( text=text_to_speak, language="English", # 语言改为英语 speaker="Ryan", # 音色改为Ryan ) sf.write("ryan_greeting.wav", audio_data[0], sample_rate)

3.3 用指令控制语音情感

这才是这个模型好玩的地方！你不需要换音色，而是可以直接用文字描述告诉它“我想要什么样的感觉”。在generate_custom_voice函数里加上instruct参数就行。

# ... 前面加载模型的代码不变 ... text_to_speak = "我真的受够了！这简直太离谱了！" audio_data, sample_rate = model.generate_custom_voice( text=text_to_speak, language="Chinese", speaker="Vivian", instruct="用非常愤怒和激动的语气说" # 核心指令 ) sf.write("angry_speech.wav", audio_data[0], sample_rate)

生成后听听，是不是能感觉到语气里的怒火？你可以尝试各种指令，比如“用悲伤的、带哭腔的语气说”、“用欢快活泼的语调说”、“像讲故事一样，慢一点说”，看看模型能理解到什么程度。

4. 实践中可能遇到的问题和小技巧

第一次跑通固然开心，但实际用起来可能会碰到一些小坎儿。这里分享几个常见问题和解决办法。

4.1 模型下载慢或失败

由于模型文件较大，国内下载有时可能不稳定。你可以：

使用国内镜像：如果你知道如何设置HF_ENDPOINT环境变量，可以将其指向国内镜像站。
手动下载：去ModelScope或HuggingFace模型页面，手动下载模型文件到本地某个文件夹（比如./local_qwen_tts），然后修改加载模型的代码：
```
model = Qwen3TTSModel.from_pretrained( “./local_qwen_tts”, # 指向本地路径 device_map=“auto”, torch_dtype=torch.bfloat16, )
```

4.2 显存不足（Out of Memory）

如果你用的是GPU，并且遇到显存不够的错误，可以尝试以下方法：

降低精度：确保torch_dtype=torch.bfloat16，这是半精度，能省很多显存。
使用CPU：如果显卡显存实在太小（比如小于4GB），可以强制使用CPU，只是速度会慢很多。把device_map=“cpu”。
试试小模型：Qwen3-TTS家族有0.6B参数的小版本（Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice），对显存要求更低，但音质可能略有牺牲。

4.3 生成很长的文本

如果你想合成一大段文字，比如一整篇文章，直接扔进去可能会出错。稳妥的做法是把长文本按句号、问号等标点分割成较短的句子，然后分批生成，最后再用音频编辑软件（或Python的pydub库）拼接起来。

4.4 探索其他内置音色

模型内置了9种音色，除了我们用过的Vivian和Ryan，还有比如：

Serena: 温暖柔和的年轻女声（中文）
Uncle_Fu: 沉稳的低沉男声（中文）
Aiden: 阳光的美式男声（英语）
Ono_Anna: 可爱的日语女声

你可以写个循环，用同一段文本把所有音色都试一遍，找到最喜欢的那一个。

5. 总结

走完这一趟，你应该已经成功在Python环境里部署了Qwen3-TTS-12Hz-1.7B-CustomVoice模型，并且用它生成了自己的第一段AI语音。整个过程从环境配置到代码调用，其实没有想象中那么复杂，关键就是一步步来。

这个模型给我的感觉是，对于想快速集成语音功能的开发者特别友好。不用操心录音和训练，开箱即用，音质也相当不错，还能玩点情感控制的把戏。无论是做个小工具、演示原型，还是学习AI语音合成，都是一个很好的起点。

当然，它也不是万能的。比如生成超长音频需要自己处理分段，对语音的精细控制（比如在某个词上加重音）可能不如专业的语音合成软件。但作为一个开源且能本地部署的模型，能做到这个程度，已经非常方便了。

接下来，你可以试着把它用到你的项目里，比如做一个自动播报新闻的小脚本，或者给游戏NPC配上动态语音。多试试不同的instruct指令，你会发现它的理解能力有时还挺让人惊喜的。玩得开心！

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Python环境下Qwen3-TTS-12Hz-1.7B-CustomVoice的安装与快速入门