news 2026/4/24 21:34:57

FunASR语音识别WebUI使用指南|支持实时录音与多格式导出

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
FunASR语音识别WebUI使用指南|支持实时录音与多格式导出

FunASR语音识别WebUI使用指南|支持实时录音与多格式导出

1. 快速开始

1.1 访问地址

启动服务后,您可以通过以下方式访问 FunASR WebUI 界面:

  • 本地访问

    http://localhost:7860
  • 远程访问(服务器部署)

    http://<服务器IP>:7860

确保端口7860在防火墙或安全组中已开放,以便外部设备可以正常连接。


2. 界面介绍

2.1 头部区域

界面顶部展示核心信息,包括:

  • 标题:FunASR 语音识别 WebUI
  • 描述:基于 FunASR 的中文语音识别系统
  • 版权信息:webUI二次开发 by 科哥 | 微信:312088415

该区域为静态展示,帮助用户快速了解系统来源和开发者信息。

2.2 控制面板(左侧)

控制面板集中管理识别参数与模型状态,包含以下功能模块:

模型选择
  • Paraformer-Large:高精度大模型,适合对准确率要求高的场景(可选)
  • SenseVoice-Small:轻量级小模型,默认启用,响应速度快,资源占用低
设备选择
  • CUDA:启用 GPU 加速,显著提升处理速度,推荐在具备 NVIDIA 显卡的环境中使用
  • CPU:纯 CPU 推理模式,适用于无独立显卡的设备

建议优先选择 CUDA 模式以获得最佳性能体验。

功能开关
  • 启用标点恢复 (PUNC):自动为识别结果添加句号、逗号等标点符号,提升可读性
  • 启用语音活动检测 (VAD):自动分割音频中的有效语音段,跳过静音部分,提高效率
  • 输出时间戳:在结果中附加每个词或句子的时间范围,便于后期编辑与同步
模型状态

显示当前模型加载情况:

  • ✓ 表示模型已成功加载
  • ✗ 表示模型未加载或加载失败

可通过“加载模型”按钮手动触发重新加载。

操作按钮
  • 加载模型:初始化或重载选定模型
  • 刷新:更新界面状态信息,检查模型是否就绪

3. 使用流程

3.1 方式一:上传音频文件识别

步骤 1:准备音频文件

支持的音频格式如下:

  • WAV (.wav)
  • MP3 (.mp3)
  • M4A (.m4a)
  • FLAC (.flac)
  • OGG (.ogg)
  • PCM (.pcm)

推荐参数

  • 采样率:16kHz
  • 单声道(Mono)
  • 音频质量清晰,背景噪音较小

文件大小建议控制在 100MB 以内,避免因网络传输导致超时。

步骤 2:上传文件
  1. 在主界面的 “ASR 语音识别” 区域点击“上传音频”
  2. 从本地选择符合格式的音频文件
  3. 等待上传完成(进度条提示)

上传成功后,音频将显示缩略图及基本信息。

步骤 3:配置识别参数
  • 批量大小(秒):默认值为 300 秒(即 5 分钟),表示每次处理的最大音频长度。可根据实际需求调整至 60–600 秒之间。
  • 识别语言
    • auto:自动检测语言(推荐用于混合语种内容)
    • zh:中文普通话
    • en:英文
    • yue:粤语
    • ja:日语
    • ko:韩语

对于单一语言内容,明确指定语言可显著提升识别准确率。

步骤 4:开始识别

点击“开始识别”按钮,系统将根据所选模型和参数进行语音转文字处理。

处理期间,界面会显示加载动画和进度提示。处理时间取决于音频长度、模型类型和硬件性能。

步骤 5:查看结果

识别完成后,结果将以三个标签页形式呈现:

文本结果
  • 展示最终生成的纯文本内容
  • 支持全选复制,方便粘贴到文档或其他应用中
详细信息
  • 提供 JSON 格式的完整识别数据
  • 包含字段如:text,timestamp,confidence,sentences
  • 适用于开发者调试或集成至其他系统
时间戳
  • 列出每句话或词语的起止时间
  • 格式示例:
    [001] 0.000s - 2.500s (时长: 2.500s)

可用于视频字幕制作、会议纪要定位等场景。


3.2 方式二:浏览器实时录音

步骤 1:开始录音
  1. 点击“麦克风录音”按钮
  2. 浏览器弹出权限请求时,点击“允许”

若未出现权限提示,请检查浏览器设置中是否已禁用麦克风权限。

步骤 2:录制语音
  • 对着麦克风清晰发音
  • 录音过程中会有波形图动态显示声音强度
  • 点击“停止录音”结束录制
步骤 3:开始识别

停止录音后,直接点击“开始识别”按钮,系统将立即处理录音数据。

步骤 4:查看结果

结果展示方式与上传文件一致,支持文本、JSON 和时间戳三种视图。

实时录音功能非常适合做短句测试、演讲稿录入或即时翻译辅助。


4. 下载结果

识别完成后,用户可将结果导出为多种常用格式,满足不同用途需求。

4.1 导出格式说明

按钮文件格式适用场景
下载文本.txt快速提取文字内容,用于笔记、报告等
下载 JSON.json开发者调用接口、数据分析、系统集成
下载 SRT.srt视频剪辑配字幕、在线课程字幕生成

4.2 输出目录结构

所有输出文件统一保存在本地目录:

outputs/outputs_YYYYMMDDHHMMSS/

每次识别都会创建一个以时间戳命名的新文件夹,例如:

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果(JSON) ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件

此设计保证了历史记录不被覆盖,便于追溯和归档。


5. 高级功能配置

5.1 批量大小调整

  • 默认值:300 秒(5 分钟)
  • 可调范围:60 – 600 秒
  • 作用机制:将长音频切分为多个片段并行处理,减少内存压力,提升稳定性

对于超过 10 分钟的长音频,建议分段上传或降低批量大小以避免崩溃。

5.2 语言识别设置

合理选择语言是提升识别准确率的关键:

场景推荐设置
中文普通话zh
英文讲座en
粤语访谈yue
日语动漫配音ja
中英混合对话auto

当使用auto模式时,系统会尝试判断主要语言,但可能不如手动指定精准。

5.3 时间戳输出

开启“输出时间戳”后,系统将在结果中提供精确到毫秒的时间标记,典型应用场景包括:

  • 视频剪辑:精准定位台词位置
  • 教学回放:快速跳转重点段落
  • 法律听证:记录发言时间节点

时间戳格式兼容主流非编软件(如 Premiere、Final Cut Pro)和字幕工具。


6. 结果示例

6.1 纯文本输出示例

你好,欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

6.2 SRT 字幕输出示例

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

6.3 时间戳信息示例

时间戳信息: [001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)

7. 常见问题解答

7.1 Q1:识别结果不准确怎么办?

解决方法

  1. 确认选择了正确的识别语言
  2. 检查音频质量,尽量使用清晰录音
  3. 调整音量增益,避免过低或爆音
  4. 如背景噪音严重,建议先进行降噪预处理

7.2 Q2:识别速度慢怎么办?

可能原因

  • 使用 CPU 模式运行
  • 音频文件过长
  • 模型负载过高

优化建议

  1. 切换至 CUDA 模式启用 GPU 加速
  2. 将长音频拆分为 5 分钟以内片段处理
  3. 改用 SenseVoice-Small 模型提升响应速度

7.3 Q3:无法上传音频文件?

排查步骤

  1. 确认文件格式是否在支持列表内(推荐使用 MP3 或 WAV)
  2. 检查文件大小是否超过 100MB
  3. 更换浏览器(推荐 Chrome 或 Edge)
  4. 查看控制台是否有错误日志输出

7.4 Q4:录音没有声音?

检查项

  1. 浏览器是否已授权麦克风访问权限
  2. 系统麦克风是否正常工作(可在录音机中测试)
  3. 麦克风输入音量是否被静音或调至最低

7.5 Q5:识别结果包含乱码?

解决方案

  1. 确保选择的语言与音频内容匹配
  2. 检查音频编码格式是否标准(如 PCM、AAC)
  3. 尝试转换音频为 WAV 格式后再上传

7.6 Q6:如何提高识别准确率?

实用建议

  1. 使用 16kHz 采样率的高质量音频
  2. 减少环境噪音干扰(使用降噪耳机或滤波工具)
  3. 发音清晰,避免过快语速
  4. 明确指定目标语言而非依赖自动检测

8. 退出使用

8.1 停止 WebUI 服务

在终端运行界面按下快捷键:

Ctrl + C

或执行命令强制终止进程:

pkill -f "python.*app.main"

建议正常关闭服务以防止临时文件残留。


9. 快捷键汇总

操作快捷键
停止服务Ctrl + C
刷新页面F5 或 Ctrl + R
复制文本Ctrl + C
全选文本Ctrl + A
打开开发者工具F12

10. 技术支持与反馈

  • 开发者:科哥
  • 联系方式:微信:312088415
  • 问题反馈要求:请提供以下信息以便快速定位问题:
    • 操作系统版本
    • 浏览器类型与版本
    • 错误截图或日志
    • 复现步骤描述

我们承诺永久开源使用,保留版权信息,请尊重原创劳动成果。


11. 更新日志

v1.0.0 (2026-01-04)

  • ✅ 首次发布版本
  • ✅ 支持中文语音识别(Paraformer & SenseVoice)
  • ✅ 支持 MP3/WAV/M4A/FLAC/OGG/PCM 多种音频格式
  • ✅ 内置浏览器端实时录音功能
  • ✅ 支持 TXT/JSON/SRT 三类结果导出
  • ✅ 采用紫蓝渐变主题 UI,提升视觉体验

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/21 4:52:51

i茅台自动化预约系统:3大核心功能助您轻松抢购飞天茅台

i茅台自动化预约系统&#xff1a;3大核心功能助您轻松抢购飞天茅台 【免费下载链接】campus-imaotai i茅台app自动预约&#xff0c;每日自动预约&#xff0c;支持docker一键部署 项目地址: https://gitcode.com/GitHub_Trending/ca/campus-imaotai 还在为每天手动抢购茅…

作者头像 李华
网站建设 2026/4/21 7:36:33

5分钟搞定Buzz:从入门到精通的故障排查完全指南

5分钟搞定Buzz&#xff1a;从入门到精通的故障排查完全指南 【免费下载链接】buzz Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAIs Whisper. 项目地址: https://gitcode.com/GitHub_Trending/buz/buzz Buzz是一款强大的…

作者头像 李华
网站建设 2026/4/23 1:00:28

DeepSeek-OCR开源:免费AI视觉文本压缩新标杆

DeepSeek-OCR开源&#xff1a;免费AI视觉文本压缩新标杆 【免费下载链接】DeepSeek-OCR DeepSeek-OCR是一款以大语言模型为核心的开源工具&#xff0c;从LLM视角出发&#xff0c;探索视觉文本压缩的极限。 项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek…

作者头像 李华
网站建设 2026/4/22 22:23:02

DeepSeek-R1-Distill-Qwen-1.5B模型测试:鲁棒性测试方法

DeepSeek-R1-Distill-Qwen-1.5B模型测试&#xff1a;鲁棒性测试方法 1. 引言 1.1 业务场景描述 在当前大模型广泛应用的背景下&#xff0c;推理型语言模型正逐步被集成到教育辅助、编程助手和自动化决策系统中。DeepSeek-R1-Distill-Qwen-1.5B 是基于 DeepSeek-R1 强化学习数…

作者头像 李华
网站建设 2026/4/23 23:04:20

科哥Image-to-Video项目快速上手指南:环境搭建篇

科哥Image-to-Video项目快速上手指南&#xff1a;环境搭建篇 你是不是也和我一样&#xff0c;刚加入开源社区时&#xff0c;看到那些酷炫的AI项目特别心动&#xff0c;尤其是“图片生成视频”这种听起来就很有科技感的功能&#xff1f;但一打开GitHub仓库&#xff0c;密密麻麻…

作者头像 李华
网站建设 2026/4/23 14:33:37

Advanced SSH Web Terminal:Home Assistant终极远程管理解决方案

Advanced SSH & Web Terminal&#xff1a;Home Assistant终极远程管理解决方案 【免费下载链接】addon-ssh Advanced SSH & Web Terminal - Home Assistant Community Add-ons 项目地址: https://gitcode.com/gh_mirrors/ad/addon-ssh 在智能家居系统的日常维护…

作者头像 李华