VibeVoice-ASR是一个统一的语音转文本模型,专为处理长达60分钟的长篇音频而设计,可一次性生成包含说话人(Who)、时间戳(When)和内容(What)的结构化转录,并支持自定义热词。
➡️代码库:microsoft/VibeVoice
➡️演示:VibeVoice-ASR演示
🔥 核心功能
🕒 60分钟单次处理:
与传统ASR模型将音频切割为短片段(常丢失全局语境)不同,VibeVoice ASR支持长达60分钟的连续音频输入(64K令牌长度内)。这确保了对整段音频中说话者的持续追踪和语义连贯性。👤 自定义热词:
用户可提供定制热词(如特定人名、专业术语或背景信息)来引导识别过程,显著提升领域专用内容的识别准确率。📝 结构化转录(何人、何时、何言):
该模型同步完成语音识别、说话人分离和时间戳标记,生成结构化输出,清晰标注何人在何时说了什么内容。
性能评估
安装与使用
请参考 GitHub README 文档。
许可协议
本项目采用 MIT 许可协议授权。
联系方式
本项目由微软研究院成员开发。我们欢迎用户的反馈与合作。如果您有任何建议、疑问,或发现技术存在异常/冒犯性行为,请联系 VibeVoice@microsoft.com。
若团队收到不良行为报告或自主发现问题,我们将在此代码库中发布相应的修复方案。