news 2026/4/15 20:18:48

支持SRT字幕生成与时间戳|FunASR WebUI完整功能使用手册

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
支持SRT字幕生成与时间戳|FunASR WebUI完整功能使用手册

支持SRT字幕生成与时间戳|FunASR WebUI完整功能使用手册

1. 快速开始与环境访问

1.1 服务启动与访问方式

在成功部署 FunASR 语音识别 WebUI 镜像后,系统将自动启动基于 Gradio 构建的可视化界面。用户可通过以下地址进行访问:

http://localhost:7860

若需从远程设备访问,请替换localhost为服务器实际 IP 地址:

http://<服务器IP>:7860

例如:

http://192.168.1.100:7860

确保防火墙或安全组已开放 7860 端口,否则无法完成远程连接。

1.2 初始加载状态说明

首次访问页面时,系统默认未加载模型。此时控制面板中的“模型状态”将显示为 ✗ 模型未加载。建议根据硬件条件选择合适的设备模式(CUDA/CPU)并点击“加载模型”按钮完成初始化。


2. 界面功能详解

2.1 头部信息区域

页面顶部展示核心标识信息:

  • 标题:FunASR 语音识别 WebUI
  • 描述:基于 FunASR 的中文语音识别系统
  • 版权信息:webUI二次开发 by 科哥 | 微信:312088415

该部分为固定信息,用于声明开发者归属和项目来源。

2.2 左侧控制面板功能解析

2.2.1 模型选择

提供两种主流 ASR 模型供切换使用:

模型名称特点推荐场景
Paraformer-Large参数量大,识别精度高对准确率要求高的离线任务
SenseVoice-Small轻量化设计,响应速度快实时交互、长音频流处理

默认启用 SenseVoice-Small 模型以保证快速响应体验。

2.2.2 设备运行模式

支持 GPU 与 CPU 两种推理后端:

  • CUDA:利用 NVIDIA 显卡加速,显著提升识别速度(推荐)
  • CPU:适用于无独立显卡环境,兼容性更强但性能较低

系统会自动检测 CUDA 环境,若有可用 GPU 将默认选中 CUDA 模式。

2.2.3 功能开关配置

三项关键增强功能可自由启停:

  • 启用标点恢复 (PUNC)
    自动为识别结果添加逗号、句号等标点符号,提升文本可读性。

  • 启用语音活动检测 (VAD)
    自动分割静音段落,仅对有效语音区间进行识别,避免空白干扰。

  • 输出时间戳
    开启后将在结果中包含每个词或句子的时间起止信息,是生成 SRT 字幕的基础。

⚠️ 注意:若需导出带时间轴的字幕文件,必须勾选此项。

2.2.4 模型状态与操作按钮
  • 模型状态指示:通过 ✓ / ✗ 图标实时反馈当前模型是否已加载
  • 加载模型:手动触发模型加载或重新加载,适用于更换参数后的刷新
  • 刷新:更新界面状态显示,不涉及模型重载

3. 语音识别使用流程

3.1 方式一:上传音频文件识别

3.1.1 支持的音频格式

系统兼容多种常见音频编码格式,包括:

  • WAV (.wav)
  • MP3 (.mp3)
  • M4A (.m4a)
  • FLAC (.flac)
  • OGG (.ogg)
  • PCM (.pcm)

推荐输入采样率为16kHz的单声道音频,符合大多数 ASR 模型训练标准。

3.1.2 文件上传步骤
  1. 在主界面“ASR 语音识别”区域点击“上传音频”
  2. 从本地文件系统中选择目标音频文件
  3. 等待上传进度条完成(网络延迟可能影响上传速度)
3.1.3 识别参数设置
  • 批量大小(秒)
    默认值为 300 秒(即 5 分钟),表示每次处理的最大音频长度。支持范围为 60–600 秒。对于超过限制的长音频,建议分段处理。

  • 识别语言选项
    提供多语种支持,可根据内容选择:

    • auto:自动检测语言(推荐用于混合语种)
    • zh:中文普通话
    • en:英语
    • yue:粤语
    • ja:日语
    • ko:韩语

选择匹配的语言可显著提高识别准确率。

3.1.4 启动识别与结果查看

点击“开始识别”按钮后,系统将调用后端模型执行转录任务。处理完成后,结果将以三个标签页形式呈现:

文本结果

显示最终生成的纯文本内容,支持直接复制粘贴使用。

详细信息

以 JSON 格式返回完整的识别数据结构,包含每段文本的置信度、时间戳、token 序列等元信息,适合程序化处理。

时间戳

列出每个识别单元(通常为短语级别)的起始时间、结束时间和持续时长,格式如下:

[001] 0.000s - 2.500s (时长: 2.500s)

此信息可用于视频剪辑定位或字幕同步校准。


3.2 方式二:浏览器实时录音识别

3.2.1 录音准备

点击“麦克风录音”按钮,浏览器将弹出权限请求框。请允许站点访问麦克风设备。

3.2.2 录制与停止
  • 开始说话即可录制语音
  • 点击“停止录音”结束采集过程

录制的音频将临时保存并在界面上播放预览。

3.2.3 执行识别

与上传文件流程一致,点击“开始识别”即可对录音内容进行转写。

📌 提示:实时录音同样受 VAD 和 PUNC 设置影响,建议开启相关功能以获得更自然的结果。


4. 结果导出与文件管理

4.1 多格式下载支持

识别完成后,用户可通过三个按钮下载不同格式的结果文件:

下载按钮输出格式典型用途
下载文本.txt纯文本存档、内容提取
下载 JSON.json数据分析、API 接口对接
下载 SRT.srt视频字幕嵌入、播放器同步显示

其中,SRT 字幕文件是本系统的重要特色功能,特别适用于视频创作者、教育工作者及会议记录人员。

4.2 SRT 字幕生成机制

当“输出时间戳”功能开启时,系统会在后台自动生成符合标准的 SRT 字幕文件。其格式规范如下:

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

每一项包含序号、时间轴(毫秒级精度)和对应文本行,完全兼容主流视频编辑软件(如 Premiere、Final Cut Pro)和播放器(VLC、PotPlayer)。

4.3 输出目录结构

所有识别结果统一保存在本地outputs/目录下,并按时间戳创建独立子文件夹:

outputs/outputs_YYYYMMDDHHMMSS/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果(JSON) ├── text_001.txt # 纯文本输出 └── subtitle_001.srt # SRT 字幕文件

例如:

outputs/outputs_20260104123456/

该命名策略确保每次识别结果独立隔离,便于追溯和归档。


5. 高级功能配置指南

5.1 批量大小调节策略

批量大小决定了模型一次处理的音频时长。合理设置有助于平衡资源占用与识别效率:

场景推荐设置说明
短语音片段(<1min)60–120s快速响应,减少等待
会议录音(5–10min)300s(默认)平衡性能与稳定性
超长讲座(>30min)分段处理避免内存溢出

💡 建议:对于超过 10 分钟的音频,先使用音频编辑工具切分为多个 5 分钟以内片段再分别处理。

5.2 语言识别优化建议

正确选择语言参数直接影响识别质量:

  • 中文为主 → 选择zh
  • 英文演讲 → 选择en
  • 粤语访谈 → 选择yue
  • 多语混杂 → 使用auto自动检测

尤其注意:若音频中存在专业术语或品牌名称(如“达摩院”、“Transformer”),应尽量选择精确语言模式而非依赖自动判断。

5.3 时间戳应用价值

启用“输出时间戳”不仅服务于 SRT 导出,还可用于:

  • 视频剪辑定位:快速跳转至特定发言段落
  • 教学回放标记:标注重点讲解时间节点
  • 合规审计追踪:记录会议中每句话的发生时刻

结合 JSON 输出中的置信度字段,还能实现低置信度片段的自动筛选复查。


6. 常见问题排查与解决方案

6.1 识别结果不准确

可能原因及应对措施:

  • 语言设置错误→ 更改为正确语种或尝试auto
  • 音频质量差→ 使用降噪工具预处理(如 Adobe Audition、RNNoise)
  • 背景噪音大→ 启用 VAD 过滤非语音段
  • 发音模糊或语速过快→ 放慢语速,清晰吐字

6.2 识别速度缓慢

性能瓶颈分析:

  • 若使用 CPU 模式,推理速度将大幅下降 → 切换至 CUDA 加速
  • 音频过长导致内存压力 → 减小批量大小或分段处理
  • 模型本身较大(如 Paraformer-Large)→ 改用 SenseVoice-Small 提升响应速度

6.3 无法上传音频文件

检查清单:

  • 文件扩展名是否在支持列表内(推荐使用 MP3 或 WAV)
  • 文件体积是否过大(建议控制在 100MB 以内)
  • 浏览器缓存异常 → 尝试刷新页面或更换浏览器(Chrome/Firefox 推荐)

6.4 录音无声或中断

常见问题排查:

  • 浏览器未授权麦克风权限 → 检查地址栏摄像头图标并允许
  • 系统麦克风被其他程序占用 → 关闭冲突应用(如 Zoom、Teams)
  • 麦克风硬件故障 → 测试其他录音软件确认设备正常

6.5 输出乱码或字符异常

解决方法:

  • 确保音频编码格式正确(避免特殊编码如 A-law PCM)
  • 检查语言设置是否匹配实际内容
  • 尝试转换音频为标准 WAV 格式后再上传

6.6 提高识别准确率的综合建议

  1. 使用16kHz 采样率、单声道的高质量音频
  2. 尽量减少环境噪声,使用指向性麦克风
  3. 发言人保持适中语速,避免连读或吞音
  4. 正确配置语言类型,优先选用领域适配模型
  5. 启用 PUNC 和 VAD 功能提升上下文连贯性

7. 系统维护与退出操作

7.1 停止 WebUI 服务

在终端中按下快捷键:

Ctrl + C

或执行强制终止命令:

pkill -f "python.*app.main"

该操作将关闭 Gradio 服务进程,释放系统资源。

7.2 快捷键汇总

操作快捷方式
终止服务Ctrl + C
页面刷新F5 或 Ctrl + R
文本复制Ctrl + C(在文本区域选中后)

8. 技术支持与反馈渠道

  • 开发者:科哥
  • 联系方式:微信 ID312088415
  • 问题反馈要求:请提供具体操作步骤、错误截图及日志信息以便快速定位

项目承诺永久开源使用,请保留原始版权信息。


9. 更新日志与版本信息

v1.0.0 (2026-01-04)

  • ✅ 首次发布版本
  • ✅ 支持中文语音识别(zh/en/yue/ja/ko)
  • ✅ 兼容多种音频格式(WAV/MP3/M4A/FLAC/OGG/PCM)
  • ✅ 实现浏览器端实时录音功能
  • ✅ 支持 TXT/JSON/SRT 三类结果导出
  • ✅ 采用紫蓝渐变主题 UI 设计,提升视觉体验

后续将持续优化模型兼容性与用户体验。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/6 10:11:33

⚡_实时系统性能优化:从毫秒到微秒的突破[20260118164829]

作为一名专注于实时系统性能优化的工程师&#xff0c;我在过去的项目中积累了丰富的低延迟优化经验。实时系统对性能的要求极其严格&#xff0c;任何微小的延迟都可能影响系统的正确性和用户体验。今天我要分享的是在实时系统中实现从毫秒到微秒级性能突破的实战经验。 &#…

作者头像 李华
网站建设 2026/4/13 3:13:44

大模型轻量化之路:DeepSeek-R1蒸馏技术部署解析

大模型轻量化之路&#xff1a;DeepSeek-R1蒸馏技术部署解析 1. 引言 随着大语言模型在自然语言理解、代码生成和逻辑推理等任务中展现出强大能力&#xff0c;其对计算资源的高需求也带来了落地难题。尤其是在边缘设备或本地化场景中&#xff0c;高昂的显存消耗和推理延迟限制…

作者头像 李华
网站建设 2026/4/9 19:41:43

VibeThinker-1.5B推理延迟高?GPU利用率提升实战教程

VibeThinker-1.5B推理延迟高&#xff1f;GPU利用率提升实战教程 1. 引言&#xff1a;小参数模型的推理挑战与优化价值 VibeThinker-1.5B 是微博开源的一款低成本、高性能的小参数语言模型&#xff0c;参数量仅为15亿&#xff0c;训练成本控制在7,800美元以内。尽管其规模较小…

作者头像 李华
网站建设 2026/4/11 21:31:30

二维码生成规范:AI智能二维码工坊标准化指南

二维码生成规范&#xff1a;AI智能二维码工坊标准化指南 1. 引言 1.1 业务场景描述 在数字化办公、营销推广与物联网设备交互中&#xff0c;二维码已成为信息传递的核心媒介。从扫码支付到设备配网&#xff0c;从电子票务到文档共享&#xff0c;二维码的使用无处不在。然而&…

作者头像 李华
网站建设 2026/4/11 12:45:13

HY-MT1.5-7B大模型镜像解析|支持术语干预与上下文翻译的翻译利器

HY-MT1.5-7B大模型镜像解析&#xff5c;支持术语干预与上下文翻译的翻译利器 1. 模型背景与技术定位 随着全球化交流日益频繁&#xff0c;高质量、低延迟的机器翻译需求持续增长。传统云服务依赖网络连接&#xff0c;在隐私保护、响应速度和离线可用性方面存在局限。在此背景…

作者头像 李华
网站建设 2026/4/7 13:28:46

半精度导出YOLOv10模型,显存占用减少一半

半精度导出YOLOv10模型&#xff0c;显存占用减少一半 1. 引言&#xff1a;YOLOv10的端到端优化与部署挑战 随着目标检测技术的发展&#xff0c;实时性与部署效率成为工业落地的关键指标。YOLOv10作为最新一代YOLO系列模型&#xff0c;首次实现了无需NMS后处理的端到端训练与推…

作者头像 李华