一分钟上传音频，看SenseVoiceSmall自动生成带标签文本-开发者社区

一分钟上传音频，看SenseVoiceSmall自动生成带标签文本

1. 引言：语音识别进入富文本时代

传统的语音转文字技术（ASR）主要关注“说了什么”，而现代智能语音系统的需求早已超越字面内容。在客服质检、视频内容分析、情感计算等场景中，人们更关心“以什么样的情绪说的”以及“周围环境发生了什么”。阿里巴巴达摩院推出的SenseVoiceSmall模型正是这一趋势下的代表性成果。

该模型不仅支持中、英、日、韩、粤语五种语言的高精度识别，还具备情感识别与声音事件检测能力，能够输出包含<|HAPPY|>、<|APPLAUSE|>等语义标签的富文本结果。通过集成 Gradio WebUI 的镜像版本，用户无需编写代码，只需一分钟即可完成音频上传并获得结构化文本输出。

本文将基于官方开源模型和预置镜像，深入解析 SenseVoiceSmall 的核心能力、工作流程及工程实践要点，帮助开发者快速上手这一多模态语音理解工具。

2. 核心功能解析：从语音到情感与事件的全面感知

2.1 多语言高精度语音识别

SenseVoiceSmall 基于非自回归架构设计，在保证低延迟的同时实现了跨语言的鲁棒性表现。相比传统 Whisper 模型，其在中文和粤语任务上的词错误率（CER）显著降低，尤其适用于混合语种对话、口音复杂的真实场景。

支持的语言包括：

zh：普通话
yue：粤语
en：英语
ja：日语
ko：韩语
auto：自动语言识别

模型内部集成了 VAD（Voice Activity Detection）模块（默认使用fsmn-vad），可自动分割静音段，提升长音频处理效率。

2.2 情感识别：捕捉说话人的情绪状态

不同于后期附加分类器的做法，SenseVoice 将情感识别作为生成过程的一部分，直接在解码阶段输出情感标签。目前支持以下六类基本情绪：

情感标签	含义
`<	HAPPY
`<	SAD
`<	ANGRY
`<	NEUTRAL
`<	FEARFUL
`<	DISGUSTED

这些标签嵌入在原始文本流中，例如：

<|HAPPY|>今天终于拿到offer啦！<|NEUTRAL|>明天就去办入职手续。

这种设计使得下游应用可以直接根据标签进行情感趋势分析或关键片段定位。

2.3 声音事件检测：还原真实声学环境

除了人声内容，环境中常包含重要辅助信息。SenseVoiceSmall 能够识别多种常见声音事件，并以统一格式标注：

事件标签	对应声音
`<	BGM
`<	APPLAUSE
`<	LAUGHTER
`<	CRY
`<	COUGH
`<	NOISE

典型输出示例如下：

<|BGM|>轻快的背景音乐响起<|LAUGHTER|>大家笑成一团<|SPEECH|>这个节目太精彩了！

此类富文本输出极大增强了语音内容的理解维度，特别适合用于直播回放分析、访谈节目剪辑推荐等场景。

3. 工程实现：构建可视化交互界面

3.1 环境依赖与部署准备

本镜像已预装以下关键组件，确保开箱即用：

Python 3.11
PyTorch 2.5 + CUDA 支持
核心库：
- funasr: 阿里语音大模型推理框架
- modelscope: 模型下载与管理
- gradio: 可视化 WebUI 构建
- av: 音频解码支持（替代 ffmpeg）
系统工具：ffmpeg（用于音频重采样）

所有依赖均已配置完毕，用户无需手动安装即可启动服务。

3.2 WebUI 服务启动流程

若镜像未自动运行 Gradio 服务，可通过以下步骤手动启动：

# 创建并编辑主程序文件 vim app_sensevoice.py

粘贴如下完整脚本：

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化模型（首次运行会自动下载权重） model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用 GPU 加速 ) def sensevoice_process(audio_path, language): if audio_path is None: return "请先上传音频文件" # 执行语音识别 res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, # 数字转文字 batch_size_s=60, # 批处理时间窗口 merge_vad=True, # 合并 VAD 分割片段 merge_length_s=15, # 最大合并长度 ) # 富文本后处理：美化标签显示 if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败" # 构建网页界面 with gr.Blocks(title="SenseVoice 多语言语音识别") as demo: gr.Markdown("# 🎙️ SenseVoice 智能语音识别控制台") gr.Markdown(""" **功能特色：** - 🚀 **多语言支持**：中、英、日、韩、粤语自动识别。 - 🎭 **情感识别**：自动检测音频中的开心、愤怒、悲伤等情绪。 - 🎸 **声音事件**：自动标注 BGM、掌声、笑声、哭声等。 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频或直接录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言选择 (auto 为自动识别)" ) submit_btn = gr.Button("开始 AI 识别", variant="primary") with gr.Column(): text_output = gr.Textbox(label="识别结果 (含情感与事件标签)", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) # 启动服务 demo.launch(server_name="0.0.0.0", server_port=6006)

保存后执行：

python app_sensevoice.py

3.3 本地访问方式（SSH 隧道转发）

由于云平台通常限制公网直接访问 Web 端口，需通过 SSH 隧道映射本地端口：

ssh -L 6006:127.0.0.1:6006 -p [实际端口号] root@[服务器IP地址]

连接成功后，在本地浏览器打开： 👉 http://127.0.0.1:6006

页面将展示一个简洁的上传界面，支持拖拽音频文件或使用麦克风录制，点击“开始 AI 识别”后几秒内即可返回带标签的富文本结果。

4. 实践技巧与优化建议

4.1 音频预处理最佳实践

尽管模型内置重采样逻辑，但为保证最佳效果，建议输入音频满足以下条件：

采样率：16kHz（单声道）
格式：WAV 或 MP3（避免高压缩 AAC）
信噪比：尽量减少背景噪音
时长：单段不超过 10 分钟（长音频由 VAD 自动切分）

对于远场拾音或电话录音，可在前端添加降噪处理（如 RNNoise）以提升识别准确率。

4.2 情感与事件标签的清洗与提取

原始输出中的标签为<|TAG|>格式，可通过rich_transcription_postprocess函数转换为更易读的形式。例如：

from funasr.utils.postprocess_utils import rich_transcription_postprocess raw_text = "<|HAPPY|>太棒了！<|APPLAUSE|><|NEUTRAL|>感谢各位的支持。" clean_text = rich_transcription_postprocess(raw_text) print(clean_text) # 输出：[开心] 太棒了！[掌声] [中性] 感谢各位的支持。

开发者也可自定义解析逻辑，提取所有情感片段用于统计分析：

import re def extract_emotions(text): pattern = r"<\|([A-Z]+)\|>([^<]+)" matches = re.findall(pattern, text) return [(tag, content.strip()) for tag, content in matches if tag in ['HAPPY', 'SAD', 'ANGRY']] emotions = extract_emotions(res[0]["text"]) for tag, content in emotions: print(f"[{tag}] {content}")

4.3 性能调优参数说明

model.generate()提供多个可调参数以平衡速度与精度：

参数	说明	推荐值
`batch_size_s`	每批次处理的音频时长（秒）	60（平衡性能）
`merge_vad`	是否合并相邻语音段	True
`merge_length_s`	单次合并最大长度	15
`use_itn`	是否启用数字规范化	True