news 2025/12/17 19:31:21

智普GLM-TTS开源:可控且富含情感的零样本语音合成模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
智普GLM-TTS开源:可控且富含情感的零样本语音合成模型

GLM-TTS 是智谱 AI(Zhipu AI)CogAudio 团队开发的开源文本到语音(TTS)合成系统,是 GLM 系列的语音扩展,于 2025 年发布。

GLM-TTS 的核心目标是解决传统 TTS 在情感表达、发音准确性和实时性上的瓶颈:早期模型虽高效但缺乏自然韵律,而 GLM-TTS 通过多奖励强化学习(GRPO)实现人类级别的表达力和稳定性,支持从 3-10 秒参考音频克隆声音。

开源地址:

github

https://github.com/zai-org/GLM-TTS

huggingface

https://huggingface.co/zai-org/GLM-TTS

modelscope

https://modelscope.cn/models/ZhipuAI/GLM-TTS

在线体验: https://audio.z.ai/

1.部署环境

环境

版本

ubuntu-24.04.3 Server

release 10.0

Cuda

12.8

显卡 RTX 2080 Ti 22G

驱动 NVIDIA-Linux-x86_64-580.105.08

uv

0.9.13

内存

32G

请提前安装好 显卡驱动,cuda版本最好是 12.8。

# 我使用 python 3.12 没有成功 # 因为 Python 3.12 环境中 很多扩展包还没有预编译 wheel,需要从源码 build。 # 而 pynini 多数情况下 不支持 Python 3.12,官方 wheel 最多到 Python 3.10。 conda create -n glmtts python=3.10 conda activate glmtts # 接下来会使用pip安装依赖,所以添加国内加速 (glmtts) pip config set global.index-url https://mirrors.huaweicloud.com/repository/pypi/simple/ # 设置全局代理 git config --global http.proxy http://192.168.6.120:7897 git config --global https.proxy http://192.168.6.120:7897 # 查看配置 git config -l # 克隆源码 git clone https://github.com/zai-org/GLM-TTS.git cd GLM-TTS

92.168.6.120 是一台windows机器,安装了 Class Verge ,通过它加速访问github。

git 代理指向了这个机器,要通过192.168.6.120 代理到github, Class Verge 必须要允许局域网连接(默认是关闭的)

2.安装依赖

cd ~/GLM-TTS # 编译 pynini 的时候,会用到 Cython pip install --upgrade pip setuptools wheel Cython soxr pip install -r requirements.txt # 安装强化学习相关依赖(可选) cd grpo/modules git clone https://github.com/s3prl/s3prl git clone https://github.com/omine-me/LaughterSegmentation # 从 modelscope下载 pip install modelscope # 下载 wavlm_large_finetune.pth 并放置在 grpo/ckpt 目录 cd ~/GLM-TTS mkdir -p ckpt modelscope download --model ZhipuAI/GLM-TTS --local_dir ckpt

3.启动交互式Web界面

python -m tools.gradio_app

启动后,会开启服务器 8048 端口: http://192.168.6.133:8048/

  • 上传声音样本

  • 输入要转换的文本

  • 生成音频

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/13 15:45:35

31、Python GUI 开发:从基础到应用

Python GUI 开发:从基础到应用 在软件开发中,Python 凭借其简洁的语法和丰富的库,在处理各种任务时表现出色,尤其是在进程处理和 GUI 应用开发方面。下面我们将深入探讨 Python 在这些领域的应用。 进程处理与 Python Python 在处理进程方面展现出了成熟和强大的特性。它…

作者头像 李华
网站建设 2025/12/13 15:44:10

12、树莓派的多样玩法:从I2C配置到家庭共享与安卓运行

树莓派的多样玩法:从I2C配置到家庭共享与安卓运行 一、I2C支持配置 在使用树莓派时,不同的系统版本对于I2C支持的配置有所不同。 - 特定系统无需额外配置 :如果你运行的是Pidora或Occidentalis且没有使用自定义内核,那么系统已经预先配置好了所需的一切,无需进行额外…

作者头像 李华
网站建设 2025/12/13 15:44:04

7步构建企业级AI助手:从单机到分布式完整指南

7步构建企业级AI助手:从单机到分布式完整指南 【免费下载链接】tabby tabby - 一个自托管的 AI 编程助手,提供给开发者一个开源的、本地运行的 GitHub Copilot 替代方案。 项目地址: https://gitcode.com/GitHub_Trending/tab/tabby 构建企业级AI…

作者头像 李华
网站建设 2025/12/13 15:43:15

Trae Agent离线工作完整教程:无网络环境下的终极解决方案

文章概要 【免费下载链接】trae-agent Trae 代理是一个基于大型语言模型(LLM)的通用软件开发任务代理。它提供了一个强大的命令行界面(CLI),能够理解自然语言指令,并使用各种工具和LLM提供者执行复杂的软件…

作者头像 李华
网站建设 2025/12/13 15:43:10

CAXA 工艺图表 2025:动态表格与参数化工序简图功能详解安装教程

简介 CAXA 工艺图表 2025 是数码大方推出的CAD/CAPP 一体化工艺编制软件,全面整合 CAXA CAD 电子图板 2025 的功能模块,针对航空、汽车零部件等行业的复杂工艺场景完成定制化升级,实现工艺编制效率、数据处理精准度与行业适配性的三重提升。…

作者头像 李华
网站建设 2025/12/16 21:01:19

1、开启 NCurses 编程之旅:基础设置与入门指南

开启 NCurses 编程之旅:基础设置与入门指南 1. 了解 NCurses 与系统要求 NCurses 是一个强大的编程库,可用于在 UNIX 发行版以及 Windows 的 CYGWIN 环境中对终端屏幕上的文本进行编程、控制和操作。借助它,你能够控制交互式输入输出,将信息组织成屏幕上的窗口,使用颜色…

作者头像 李华