支持SRT字幕生成与时间戳|FunASR WebUI完整功能使用手册
1. 快速开始与环境访问
1.1 服务启动与访问方式
在成功部署 FunASR 语音识别 WebUI 镜像后,系统将自动启动基于 Gradio 构建的可视化界面。用户可通过以下地址进行访问:
http://localhost:7860若需从远程设备访问,请替换localhost为服务器实际 IP 地址:
http://<服务器IP>:7860例如:
http://192.168.1.100:7860确保防火墙或安全组已开放 7860 端口,否则无法完成远程连接。
1.2 初始加载状态说明
首次访问页面时,系统默认未加载模型。此时控制面板中的“模型状态”将显示为 ✗ 模型未加载。建议根据硬件条件选择合适的设备模式(CUDA/CPU)并点击“加载模型”按钮完成初始化。
2. 界面功能详解
2.1 头部信息区域
页面顶部展示核心标识信息:
- 标题:FunASR 语音识别 WebUI
- 描述:基于 FunASR 的中文语音识别系统
- 版权信息:webUI二次开发 by 科哥 | 微信:312088415
该部分为固定信息,用于声明开发者归属和项目来源。
2.2 左侧控制面板功能解析
2.2.1 模型选择
提供两种主流 ASR 模型供切换使用:
| 模型名称 | 特点 | 推荐场景 |
|---|---|---|
| Paraformer-Large | 参数量大,识别精度高 | 对准确率要求高的离线任务 |
| SenseVoice-Small | 轻量化设计,响应速度快 | 实时交互、长音频流处理 |
默认启用 SenseVoice-Small 模型以保证快速响应体验。
2.2.2 设备运行模式
支持 GPU 与 CPU 两种推理后端:
- CUDA:利用 NVIDIA 显卡加速,显著提升识别速度(推荐)
- CPU:适用于无独立显卡环境,兼容性更强但性能较低
系统会自动检测 CUDA 环境,若有可用 GPU 将默认选中 CUDA 模式。
2.2.3 功能开关配置
三项关键增强功能可自由启停:
启用标点恢复 (PUNC)
自动为识别结果添加逗号、句号等标点符号,提升文本可读性。启用语音活动检测 (VAD)
自动分割静音段落,仅对有效语音区间进行识别,避免空白干扰。输出时间戳
开启后将在结果中包含每个词或句子的时间起止信息,是生成 SRT 字幕的基础。
⚠️ 注意:若需导出带时间轴的字幕文件,必须勾选此项。
2.2.4 模型状态与操作按钮
- 模型状态指示:通过 ✓ / ✗ 图标实时反馈当前模型是否已加载
- 加载模型:手动触发模型加载或重新加载,适用于更换参数后的刷新
- 刷新:更新界面状态显示,不涉及模型重载
3. 语音识别使用流程
3.1 方式一:上传音频文件识别
3.1.1 支持的音频格式
系统兼容多种常见音频编码格式,包括:
- WAV (.wav)
- MP3 (.mp3)
- M4A (.m4a)
- FLAC (.flac)
- OGG (.ogg)
- PCM (.pcm)
推荐输入采样率为16kHz的单声道音频,符合大多数 ASR 模型训练标准。
3.1.2 文件上传步骤
- 在主界面“ASR 语音识别”区域点击“上传音频”
- 从本地文件系统中选择目标音频文件
- 等待上传进度条完成(网络延迟可能影响上传速度)
3.1.3 识别参数设置
批量大小(秒)
默认值为 300 秒(即 5 分钟),表示每次处理的最大音频长度。支持范围为 60–600 秒。对于超过限制的长音频,建议分段处理。识别语言选项
提供多语种支持,可根据内容选择:auto:自动检测语言(推荐用于混合语种)zh:中文普通话en:英语yue:粤语ja:日语ko:韩语
选择匹配的语言可显著提高识别准确率。
3.1.4 启动识别与结果查看
点击“开始识别”按钮后,系统将调用后端模型执行转录任务。处理完成后,结果将以三个标签页形式呈现:
文本结果
显示最终生成的纯文本内容,支持直接复制粘贴使用。
详细信息
以 JSON 格式返回完整的识别数据结构,包含每段文本的置信度、时间戳、token 序列等元信息,适合程序化处理。
时间戳
列出每个识别单元(通常为短语级别)的起始时间、结束时间和持续时长,格式如下:
[001] 0.000s - 2.500s (时长: 2.500s)此信息可用于视频剪辑定位或字幕同步校准。
3.2 方式二:浏览器实时录音识别
3.2.1 录音准备
点击“麦克风录音”按钮,浏览器将弹出权限请求框。请允许站点访问麦克风设备。
3.2.2 录制与停止
- 开始说话即可录制语音
- 点击“停止录音”结束采集过程
录制的音频将临时保存并在界面上播放预览。
3.2.3 执行识别
与上传文件流程一致,点击“开始识别”即可对录音内容进行转写。
📌 提示:实时录音同样受 VAD 和 PUNC 设置影响,建议开启相关功能以获得更自然的结果。
4. 结果导出与文件管理
4.1 多格式下载支持
识别完成后,用户可通过三个按钮下载不同格式的结果文件:
| 下载按钮 | 输出格式 | 典型用途 |
|---|---|---|
| 下载文本 | .txt | 纯文本存档、内容提取 |
| 下载 JSON | .json | 数据分析、API 接口对接 |
| 下载 SRT | .srt | 视频字幕嵌入、播放器同步显示 |
其中,SRT 字幕文件是本系统的重要特色功能,特别适用于视频创作者、教育工作者及会议记录人员。
4.2 SRT 字幕生成机制
当“输出时间戳”功能开启时,系统会在后台自动生成符合标准的 SRT 字幕文件。其格式规范如下:
1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统每一项包含序号、时间轴(毫秒级精度)和对应文本行,完全兼容主流视频编辑软件(如 Premiere、Final Cut Pro)和播放器(VLC、PotPlayer)。
4.3 输出目录结构
所有识别结果统一保存在本地outputs/目录下,并按时间戳创建独立子文件夹:
outputs/outputs_YYYYMMDDHHMMSS/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果(JSON) ├── text_001.txt # 纯文本输出 └── subtitle_001.srt # SRT 字幕文件例如:
outputs/outputs_20260104123456/该命名策略确保每次识别结果独立隔离,便于追溯和归档。
5. 高级功能配置指南
5.1 批量大小调节策略
批量大小决定了模型一次处理的音频时长。合理设置有助于平衡资源占用与识别效率:
| 场景 | 推荐设置 | 说明 |
|---|---|---|
| 短语音片段(<1min) | 60–120s | 快速响应,减少等待 |
| 会议录音(5–10min) | 300s(默认) | 平衡性能与稳定性 |
| 超长讲座(>30min) | 分段处理 | 避免内存溢出 |
💡 建议:对于超过 10 分钟的音频,先使用音频编辑工具切分为多个 5 分钟以内片段再分别处理。
5.2 语言识别优化建议
正确选择语言参数直接影响识别质量:
- 中文为主 → 选择
zh - 英文演讲 → 选择
en - 粤语访谈 → 选择
yue - 多语混杂 → 使用
auto自动检测
尤其注意:若音频中存在专业术语或品牌名称(如“达摩院”、“Transformer”),应尽量选择精确语言模式而非依赖自动判断。
5.3 时间戳应用价值
启用“输出时间戳”不仅服务于 SRT 导出,还可用于:
- 视频剪辑定位:快速跳转至特定发言段落
- 教学回放标记:标注重点讲解时间节点
- 合规审计追踪:记录会议中每句话的发生时刻
结合 JSON 输出中的置信度字段,还能实现低置信度片段的自动筛选复查。
6. 常见问题排查与解决方案
6.1 识别结果不准确
可能原因及应对措施:
- 语言设置错误→ 更改为正确语种或尝试
auto - 音频质量差→ 使用降噪工具预处理(如 Adobe Audition、RNNoise)
- 背景噪音大→ 启用 VAD 过滤非语音段
- 发音模糊或语速过快→ 放慢语速,清晰吐字
6.2 识别速度缓慢
性能瓶颈分析:
- 若使用 CPU 模式,推理速度将大幅下降 → 切换至 CUDA 加速
- 音频过长导致内存压力 → 减小批量大小或分段处理
- 模型本身较大(如 Paraformer-Large)→ 改用 SenseVoice-Small 提升响应速度
6.3 无法上传音频文件
检查清单:
- 文件扩展名是否在支持列表内(推荐使用 MP3 或 WAV)
- 文件体积是否过大(建议控制在 100MB 以内)
- 浏览器缓存异常 → 尝试刷新页面或更换浏览器(Chrome/Firefox 推荐)
6.4 录音无声或中断
常见问题排查:
- 浏览器未授权麦克风权限 → 检查地址栏摄像头图标并允许
- 系统麦克风被其他程序占用 → 关闭冲突应用(如 Zoom、Teams)
- 麦克风硬件故障 → 测试其他录音软件确认设备正常
6.5 输出乱码或字符异常
解决方法:
- 确保音频编码格式正确(避免特殊编码如 A-law PCM)
- 检查语言设置是否匹配实际内容
- 尝试转换音频为标准 WAV 格式后再上传
6.6 提高识别准确率的综合建议
- 使用16kHz 采样率、单声道的高质量音频
- 尽量减少环境噪声,使用指向性麦克风
- 发言人保持适中语速,避免连读或吞音
- 正确配置语言类型,优先选用领域适配模型
- 启用 PUNC 和 VAD 功能提升上下文连贯性
7. 系统维护与退出操作
7.1 停止 WebUI 服务
在终端中按下快捷键:
Ctrl + C或执行强制终止命令:
pkill -f "python.*app.main"该操作将关闭 Gradio 服务进程,释放系统资源。
7.2 快捷键汇总
| 操作 | 快捷方式 |
|---|---|
| 终止服务 | Ctrl + C |
| 页面刷新 | F5 或 Ctrl + R |
| 文本复制 | Ctrl + C(在文本区域选中后) |
8. 技术支持与反馈渠道
- 开发者:科哥
- 联系方式:微信 ID
312088415 - 问题反馈要求:请提供具体操作步骤、错误截图及日志信息以便快速定位
项目承诺永久开源使用,请保留原始版权信息。
9. 更新日志与版本信息
v1.0.0 (2026-01-04)
- ✅ 首次发布版本
- ✅ 支持中文语音识别(zh/en/yue/ja/ko)
- ✅ 兼容多种音频格式(WAV/MP3/M4A/FLAC/OGG/PCM)
- ✅ 实现浏览器端实时录音功能
- ✅ 支持 TXT/JSON/SRT 三类结果导出
- ✅ 采用紫蓝渐变主题 UI 设计,提升视觉体验
后续将持续优化模型兼容性与用户体验。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。