news 2026/5/12 10:02:23

GLM-TTS 发布:3 秒音色复刻 + 工业级语音合成,模型权重已开源

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GLM-TTS 发布:3 秒音色复刻 + 工业级语音合成,模型权重已开源

智谱 AI 正式发布工业级语音合成系统 GLM-TTS,并宣布在Hugging Face和ModelScope 上开放模型权重 。

作为智谱在语音领域的最新力作,GLM-TTS 基于在数据筛选、基础模型结构、精品音色监督微调(SFT)及强化学习(RL)等多方面的技术创新 。仅在 10w 小时数据上训练,便具备了“3秒”音色复刻和超强文本理解能力,在多个开源测试集上实现 SOTA 。

效果炸裂:情感SOTA与3秒克隆

  • 全能情感复刻:模型能根据文本内容的情绪,自动匹配对应的语音情感 。在权威测试集(CV3-eval-emotion)中,GLM-TTS 在 Happy(开心)、Sad(悲伤)、Angry(愤怒)三类情感维度均取得“最佳表现” 。

  • 碾压商用模型:数据显示,相比 Qwen3-TTS、豆包 TTS-2.0 等商用模型在负向情感(如悲伤、愤怒)上得分多为 0 的情况,GLM-TTS 的平均情感得分高达 0.51,展现了极强的拟人化能力 。

  • 方言与极速克隆:支持四川话、东北话等方言克隆,且仅需3秒提示音频即可完成高保真音色复刻 。

评测数据显示,GLM-TTS在悲伤、愤怒等高难度负向情感上全面领先商用模型

硬核架构:RL强化学习+LoRA定制

GLM-TTS 是一套基于两阶段生成范式(Text-to-token & Token-to-wav)的高质量系统 。为了解决传统 TTS 的痛点,智谱此次带来了多项“黑科技”:

  • 引入强化学习 (RL):这是本次最大的技术亮点之一。GLM-TTS 创新引入 GRPO 算法框架,融合了 CER(字错误率)、相似度、情感及笑声(Laughter)的多维度奖励机制 。通过动态采样与梯度裁剪,显著提升了语音的拟人化程度,让 AI 学会了“呼吸”和“笑” 。

  • 低成本 LoRA 定制:传统全参微调成本高昂,而 GLM-TTS 优化的 LoRA 范式仅需微调 15% 的参数,配合约 1 小时的单一说话人数据,即可达到与全参微调相当的效果 。

  • 精准发音控制 (Phoneme-in):针对“行(xíng/háng)”等多音字和生僻字难题,提出了“Hybrid Phoneme + Text”混合输入形式,实现了对发音的精准定向控制,完美适配教育评测等高精度场景 。

系统采用“Text-to-token + Token-to-wav”两阶段生成范式,配合自研2D-Vocos声码器,确保了高保真的语音合成效果

数据说话:开源模型中的新标杆

一切用数据说话。在各项权威评测中,GLM-TTS 均展现出了“霸榜”级的实力:

  • CER 击穿底线:在 seed-tts-eval 中文测试集中,GLM-TTS_RL 的字错误率(CER)低至 0.89% 。

  • 超越开源 SOTA:这一成绩显著优于 CosyVoice2 (1.38%)、VoxCPM (0.93%)、IndexTTS2 (1.03%) 等主流开源模型,甚至逼近闭源模型的顶尖水平 。

  • 音色高保真:在保证极低错误率的同时,音色相似度(Sim)提升至 76.4,实现了“发音精准+音色相似”的双重领先 。

GLM-TTS_RL以0.89%的极低字错误率(CER)超越CosyVoice2等主流模型,成功刷新开源 SOTA 记录

立即体验与下载

GLM-TTS 现已全面开放,开发者和企业用户可以通过以下方式即刻上手:

💻 在线体验:

  • Z.ai平台: audio.z.ai

  • 智谱清言:APP 或网页版 (chatglm.cn)

👨‍💻 模型下载与开源:

  • GitHub:https://github.com/zai-org/GLM-TTS

  • Hugging Face:https://huggingface.co/zai-org/GLM-TTS

  • 魔搭社区: https://modelscope.cn/models/ZhipuAI/GLM-TTS

☁️ API 调用: 企业用户可通过开放平台 BigModel 直接调用模型 API,支持从 Demo 试用到生产级大规模调用的多种配置

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 12:18:02

kotaemon社区支持全攻略:轻松上手文档问答

kotaemon社区支持全攻略:轻松上手文档问答 在企业知识管理日益智能化的今天,一个常见的痛点浮出水面:如何让AI真正“理解”公司内部的合同、手册和流程文档,并准确回答员工或客户的问题?市面上不少聊天机器人看似聪明…

作者头像 李华
网站建设 2026/5/9 22:49:41

LobeChat能否集成知识图谱?结构化信息增强回答准确率

LobeChat能否集成知识图谱?结构化信息增强回答准确率 在企业级AI助手日益普及的今天,用户早已不再满足于“能聊天”的通用模型。他们需要的是一个懂行业、知细节、答得准的专业顾问——尤其是在医疗诊断辅助、金融合规查询或法律条文解读这类高风险场景中…

作者头像 李华
网站建设 2026/5/10 17:30:50

HR背调怕踩坑?合规高效实操指南

行业总览:背调非“查户口”,精准合规是核心底线“背调会不会触碰隐私红线?”“信息真假难辨如何核实?”“背调结果该如何影响录用决策?”——员工背调作为HR招聘的“最后一道防线”,既是规避用人风险的关键…

作者头像 李华
网站建设 2026/5/8 23:53:18

Qwen3-32B部署全解析:GPU显存与推理优化

Qwen3-32B部署全解析:GPU显存与推理优化 你有没有遇到过这样的场景? 企业领导拍板:“上AI!” 结果技术团队一查,Qwen3-32B这么强的模型——到底能不能跑得动?要几块卡?显存够不够?用…

作者头像 李华
网站建设 2026/5/11 6:13:12

ComfyUI API使用指南:高效稳定的绘图接口方案

ComfyUI API使用指南:高效稳定的绘图接口方案 在AI生成图像技术迅猛发展的今天,越来越多的开发者不再满足于“能出图”——他们需要的是一个稳定、可扩展、易于集成的生产级系统。然而,许多基于传统WebUI构建的服务,在面对高并发…

作者头像 李华