微软开源VibeVoice-ASR-开发者社区

VibeVoice-ASR是一个统一的语音转文本模型，专为处理长达60分钟的长篇音频而设计，可一次性生成包含说话人（Who）、时间戳（When）和内容（What）的结构化转录，并支持自定义热词。

➡️代码库:microsoft/VibeVoice

➡️演示:VibeVoice-ASR演示

🕒 60分钟单次处理:
与传统ASR模型将音频切割为短片段（常丢失全局语境）不同，VibeVoice ASR支持长达60分钟的连续音频输入（64K令牌长度内）。这确保了对整段音频中说话者的持续追踪和语义连贯性。
👤 自定义热词:
用户可提供定制热词（如特定人名、专业术语或背景信息）来引导识别过程，显著提升领域专用内容的识别准确率。
📝 结构化转录（何人、何时、何言）:
该模型同步完成语音识别、说话人分离和时间戳标记，生成结构化输出，清晰标注何人在何时说了什么内容。

请参考 GitHub README 文档。

本项目采用 MIT 许可协议授权。

本项目由微软研究院成员开发。我们欢迎用户的反馈与合作。如果您有任何建议、疑问，或发现技术存在异常/冒犯性行为，请联系 VibeVoice@microsoft.com。
若团队收到不良行为报告或自主发现问题，我们将在此代码库中发布相应的修复方案。

Java版LeetCode热题100之下一个排列：深入解析与实战应用本文目标：全面、系统地讲解 LeetCode 第31题「下一个排列」（Next Permutation），从题目理解、算法推导、代码实现到面试技巧和实际应用场景，帮助你真…

李华

在编写应用程序时多多少少会遇到需要程序等待一会，再执行下面的程序，这时候就需要延时函数来实现这个功能，本节就来介绍延时函数的使用。一、sleep 用于使程序暂停执行一段时间，通常是以秒为单位。 1.头文件 #include <un…

李华

基于YOLOv8的校园安全隐患识别系统研究与实现本文提出并实现了一种基于YOLOv8目标检测算法的校园安全隐患识别系统，可对校园场景中6类典型安全隐患(人员摔倒、交通事故、物品破坏、斗殴行为、火灾、盗窃行为)进行自动识别与实时预警研究过程中，首先构建…

李华

SVG静止无功发生器Matlab仿真设计(设计源文件万字报告讲解)（支持资料、图片参考_相关定制）_文章底部可以扫码、算法描述:采用dq旋转坐标轴下的电压电流双闭环控制，同时对dq进行解耦控制。电压外环的作用是稳定直流侧电压750V，电流…

李华

救命神器8个一键生成论文工具，继续教育学生轻松搞定论文！ AI 工具如何让论文写作变得轻松高效？ 在当今快节奏的学习环境中，继续教育学生常常面临论文写作的挑战。无论是选题、撰写还是降重，每一个环节都可能成为阻碍进…

李华

为什么选择BERT-base-chinese？中文预训练优势详解 1. 这不是普通填空，是真正懂中文的语义推理你有没有试过让AI补全一句古诗？比如输入“床前明月光，疑是地[MASK]霜”，它能立刻告诉你答案是“上”，而且信…

李华