FunASR语音识别WebUI使用指南｜支持实时录音与多格式导出-开发者社区

FunASR语音识别WebUI使用指南｜支持实时录音与多格式导出

1. 快速开始

1.1 访问地址

启动服务后，您可以通过以下方式访问 FunASR WebUI 界面：

本地访问：
```
http://localhost:7860
```
远程访问（服务器部署）：
```
http://<服务器IP>:7860
```

确保端口7860在防火墙或安全组中已开放，以便外部设备可以正常连接。

2. 界面介绍

2.1 头部区域

界面顶部展示核心信息，包括：

标题：FunASR 语音识别 WebUI
描述：基于 FunASR 的中文语音识别系统
版权信息：webUI二次开发 by 科哥 | 微信：312088415

该区域为静态展示，帮助用户快速了解系统来源和开发者信息。

2.2 控制面板（左侧）

控制面板集中管理识别参数与模型状态，包含以下功能模块：

模型选择

Paraformer-Large：高精度大模型，适合对准确率要求高的场景（可选）
SenseVoice-Small：轻量级小模型，默认启用，响应速度快，资源占用低

设备选择

CUDA：启用 GPU 加速，显著提升处理速度，推荐在具备 NVIDIA 显卡的环境中使用
CPU：纯 CPU 推理模式，适用于无独立显卡的设备

建议优先选择 CUDA 模式以获得最佳性能体验。

功能开关

启用标点恢复 (PUNC)：自动为识别结果添加句号、逗号等标点符号，提升可读性
启用语音活动检测 (VAD)：自动分割音频中的有效语音段，跳过静音部分，提高效率
输出时间戳：在结果中附加每个词或句子的时间范围，便于后期编辑与同步

模型状态

显示当前模型加载情况：

✓ 表示模型已成功加载
✗ 表示模型未加载或加载失败

可通过“加载模型”按钮手动触发重新加载。

操作按钮

加载模型：初始化或重载选定模型
刷新：更新界面状态信息，检查模型是否就绪

3. 使用流程

3.1 方式一：上传音频文件识别

步骤 1：准备音频文件

支持的音频格式如下：

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐参数：

采样率：16kHz
单声道（Mono）
音频质量清晰，背景噪音较小

文件大小建议控制在 100MB 以内，避免因网络传输导致超时。

步骤 2：上传文件

在主界面的 “ASR 语音识别” 区域点击“上传音频”
从本地选择符合格式的音频文件
等待上传完成（进度条提示）

上传成功后，音频将显示缩略图及基本信息。

步骤 3：配置识别参数

批量大小（秒）：默认值为 300 秒（即 5 分钟），表示每次处理的最大音频长度。可根据实际需求调整至 60–600 秒之间。
识别语言：
- auto：自动检测语言（推荐用于混合语种内容）
- zh：中文普通话
- en：英文
- yue：粤语
- ja：日语
- ko：韩语

对于单一语言内容，明确指定语言可显著提升识别准确率。

步骤 4：开始识别

点击“开始识别”按钮，系统将根据所选模型和参数进行语音转文字处理。

处理期间，界面会显示加载动画和进度提示。处理时间取决于音频长度、模型类型和硬件性能。

步骤 5：查看结果

识别完成后，结果将以三个标签页形式呈现：

文本结果

展示最终生成的纯文本内容
支持全选复制，方便粘贴到文档或其他应用中

详细信息

提供 JSON 格式的完整识别数据
包含字段如：text,timestamp,confidence,sentences等
适用于开发者调试或集成至其他系统

时间戳

列出每句话或词语的起止时间
格式示例：
```
[001] 0.000s - 2.500s (时长: 2.500s)
```

可用于视频字幕制作、会议纪要定位等场景。

3.2 方式二：浏览器实时录音

步骤 1：开始录音

点击“麦克风录音”按钮
浏览器弹出权限请求时，点击“允许”

若未出现权限提示，请检查浏览器设置中是否已禁用麦克风权限。

步骤 2：录制语音

对着麦克风清晰发音
录音过程中会有波形图动态显示声音强度
点击“停止录音”结束录制

步骤 3：开始识别

停止录音后，直接点击“开始识别”按钮，系统将立即处理录音数据。

步骤 4：查看结果

结果展示方式与上传文件一致，支持文本、JSON 和时间戳三种视图。

实时录音功能非常适合做短句测试、演讲稿录入或即时翻译辅助。

4. 下载结果

识别完成后，用户可将结果导出为多种常用格式，满足不同用途需求。

4.1 导出格式说明

按钮	文件格式	适用场景
下载文本	.txt	快速提取文字内容，用于笔记、报告等
下载 JSON	.json	开发者调用接口、数据分析、系统集成
下载 SRT	.srt	视频剪辑配字幕、在线课程字幕生成

4.2 输出目录结构

所有输出文件统一保存在本地目录：

outputs/outputs_YYYYMMDDHHMMSS/

每次识别都会创建一个以时间戳命名的新文件夹，例如：

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果（JSON） ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件

此设计保证了历史记录不被覆盖，便于追溯和归档。

5. 高级功能配置

5.1 批量大小调整

默认值：300 秒（5 分钟）
可调范围：60 – 600 秒
作用机制：将长音频切分为多个片段并行处理，减少内存压力，提升稳定性

对于超过 10 分钟的长音频，建议分段上传或降低批量大小以避免崩溃。

5.2 语言识别设置

合理选择语言是提升识别准确率的关键：

场景	推荐设置
中文普通话	`zh`
英文讲座	`en`
粤语访谈	`yue`
日语动漫配音	`ja`
中英混合对话	`auto`

当使用auto模式时，系统会尝试判断主要语言，但可能不如手动指定精准。

5.3 时间戳输出

开启“输出时间戳”后，系统将在结果中提供精确到毫秒的时间标记，典型应用场景包括：

视频剪辑：精准定位台词位置
教学回放：快速跳转重点段落
法律听证：记录发言时间节点

时间戳格式兼容主流非编软件（如 Premiere、Final Cut Pro）和字幕工具。

6. 结果示例

6.1 纯文本输出示例

你好，欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

6.2 SRT 字幕输出示例

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

6.3 时间戳信息示例

时间戳信息: [001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)

7. 常见问题解答

7.1 Q1：识别结果不准确怎么办？

解决方法：

确认选择了正确的识别语言
检查音频质量，尽量使用清晰录音
调整音量增益，避免过低或爆音
如背景噪音严重，建议先进行降噪预处理

7.2 Q2：识别速度慢怎么办？

可能原因：

使用 CPU 模式运行
音频文件过长
模型负载过高

优化建议：

切换至 CUDA 模式启用 GPU 加速
将长音频拆分为 5 分钟以内片段处理
改用 SenseVoice-Small 模型提升响应速度

7.3 Q3：无法上传音频文件？

排查步骤：

确认文件格式是否在支持列表内（推荐使用 MP3 或 WAV）
检查文件大小是否超过 100MB
更换浏览器（推荐 Chrome 或 Edge）
查看控制台是否有错误日志输出

7.4 Q4：录音没有声音？

检查项：

浏览器是否已授权麦克风访问权限
系统麦克风是否正常工作（可在录音机中测试）
麦克风输入音量是否被静音或调至最低

7.5 Q5：识别结果包含乱码？

解决方案：

确保选择的语言与音频内容匹配
检查音频编码格式是否标准（如 PCM、AAC）
尝试转换音频为 WAV 格式后再上传

7.6 Q6：如何提高识别准确率？

实用建议：

使用 16kHz 采样率的高质量音频
减少环境噪音干扰（使用降噪耳机或滤波工具）
发音清晰，避免过快语速
明确指定目标语言而非依赖自动检测

8. 退出使用

8.1 停止 WebUI 服务

在终端运行界面按下快捷键：

Ctrl + C

或执行命令强制终止进程：

pkill -f "python.*app.main"

建议正常关闭服务以防止临时文件残留。

9. 快捷键汇总

操作	快捷键
停止服务	Ctrl + C
刷新页面	F5 或 Ctrl + R
复制文本	Ctrl + C
全选文本	Ctrl + A
打开开发者工具	F12

10. 技术支持与反馈

开发者：科哥
联系方式：微信：312088415
问题反馈要求：请提供以下信息以便快速定位问题：
- 操作系统版本
- 浏览器类型与版本
- 错误截图或日志
- 复现步骤描述

我们承诺永久开源使用，保留版权信息，请尊重原创劳动成果。

11. 更新日志

v1.0.0 (2026-01-04)

✅ 首次发布版本
✅ 支持中文语音识别（Paraformer & SenseVoice）
✅ 支持 MP3/WAV/M4A/FLAC/OGG/PCM 多种音频格式
✅ 内置浏览器端实时录音功能
✅ 支持 TXT/JSON/SRT 三类结果导出
✅ 采用紫蓝渐变主题 UI，提升视觉体验

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。