news 2026/5/14 2:38:01

在线教程丨微软开源VibeVoice,可实现90分钟4角色自然对话

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
在线教程丨微软开源VibeVoice,可实现90分钟4角色自然对话

近年来,文本转语音(TTS)合成技术进展显著,已能够为单一说话者合成高保真、听觉自然的短话语。然而,在面对长格式、多说话人对话音频的可扩展合成时,仍存在重要挑战,限制了诸如播客与多角色有声书场景下的应用边界。

传统方法即使通过串联独立合成的话语来生成此类音频,但在实现自然的对话轮流和内容感知生成方面依然不尽人意。随着行业应用需求的不断提升,行业领域已陆续出现针对多说话人长会话语音生成的研究,但多数成果尚未开源,或在生成长度与稳定性方面仍存在待解决的难题。

在此背景下,微软开源了 VibeVoice,旨在实现可扩展的长格式、多说话人语音合成。VibeVoice 采用基于下一 token 扩散(next-token diffusion)的方法来合成多说话人长语音,这是一种通过扩散自回归生成潜在向量以建模连续数据的统一方法。

为此,研究团队首创了一种新颖的连续语音分词器,与当前流行的 Encodec 模型相比,在保持相当性能的前提下,实现了 80 倍的数据压缩提升,即可实现高达 3200× 的压缩率(对应 7.5 Hz 帧率),在保障音频保真度的同时,显著提高了长序列处理的计算效率。

VibeVoice 架构图

尽管架构简洁,VibeVoice 却展现出极强的能力,能够在 64K 上下文窗口中合成长达 90 分钟、包含最多 4 名说话人的语音,音色更为丰富、语调更趋自然,并捕捉真实对话氛围,在跨语言应用中表现出更强的迁移能力,综合表现已超越现有的开源与专有对话模型。

「VibeVoice-Realtime TTS:实时语音合成服务」已上线 HyperAI 官网(hyper.ai)的教程版块,一键跳转即可部署体验!

教程链接:

https://go.hyper.ai/jdZrA

Demo 运行

1.进入 hyper.ai 首页后,选择「VibeVoice-Realtime TTS:实时语音合成服务」,或进入「教程」页面选择。进入点击「在线运行此教程」。



2.页面跳转后,点击右上角「Clone」,将该教程克隆至自己的容器中。

注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「Pay As You Go(按量付费)」或「Daily Plan/Weekly Plan/Monthly Plan(包日/周/月」,点击「Continue job execution(继续执行)」。

HyperAI 为新用户准备了注册福利,仅需 $1,即可获得 5 小时 RTX 5090 算力(原价 $2.45),资源永久有效。


4.等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「Running(运行中)」后,点击「API address」旁边的跳转箭头,即可跳转至 Demo 页面。

效果演示

进入 Demo 运行页面后,将测试视频上传后,在「Text to Convert」处输入文本,「Speaker Voice」选项中提供了 7 种可选择的音色,调整「CFG Scale」可以控制语音风格强度,数值越大情感越强。最后点击「Generate Speech」,稍等片刻即可生成音频。

以上就是 HyperAI超神经本期推荐的教程,欢迎大家前来体验!

教程链接:

https://go.hyper.ai/jdZrA

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 15:04:52

Linly-Talker:构建智能多模态对话系统

Linly-Talker:让每个人都能拥有自己的AI数字人 想象一下,你只需上传一张照片和一段文字,几分钟后就能看到一个栩栩如生的“自己”在屏幕上开口说话——讲解课程、播报新闻、回答客户问题。这不再是科幻电影中的场景,而是Linly-Ta…

作者头像 李华
网站建设 2026/5/11 18:34:38

LobeChat能否模拟谈判?商务沟通预演工具

LobeChat能否模拟谈判?商务沟通预演工具 在企业日常运营中,一次关键的采购谈判可能直接影响数百万成本;一场国际商务对话中的措辞偏差,甚至可能引发合作破裂。传统上,这类高风险沟通依赖经验积累和有限的角色扮演训练—…

作者头像 李华
网站建设 2026/5/8 22:48:56

Qwen3-8B与vLLM协同推理加速实战

Qwen3-8B与vLLM协同推理加速实战 在当前AI应用快速落地的浪潮中,如何用有限的硬件资源跑出高性能的大模型推理服务,成了开发者绕不开的现实课题。尤其对于中小企业和独立开发者而言,动辄百亿参数、需要多张A100支撑的“巨无霸”模型显然不现实…

作者头像 李华
网站建设 2026/5/10 3:05:09

Qwen3-VL-30B本地部署与多模态实战指南

Qwen3-VL-30B本地部署与多模态实战指南 在AI从“能说会算”迈向“看得懂、想得清”的今天,视觉语言模型(Vision-Language Model, VLM)正成为智能系统的“眼睛与大脑”。而在这条进化的关键路径上,Qwen3-VL-30B 的出现&#xff0c…

作者头像 李华
网站建设 2026/5/8 15:41:01

11、Linux 系统写作与编辑的语法和参考工具使用指南

Linux 系统写作与编辑的语法和参考工具使用指南 在 Linux 系统中进行写作和编辑时,拼写检查器、字典和参考文件等工具和资源能极大地提升效率和准确性。下面将详细介绍这些工具的使用方法。 1. 拼写检查 在 Linux 系统中,有多种方式可以对文本和文件进行拼写检查。系统字典…

作者头像 李华
网站建设 2026/5/10 21:46:07

Wan2.2-T2V-A14B服务雪崩?反脆弱LLM运维指南

Wan2.2-T2V-A14B服务雪崩?反脆弱LLM运维指南从一次崩溃说起:当视频生成卡在第8秒 凌晨两点,系统监控突然报警。你揉着发酸的眼睛点开告警详情——Wan2.2-T2V-A14B 的 GPU 内存使用率冲上 99%,请求队列堆积超过 300,P99…

作者头像 李华