零基础也能懂!Fun-ASR语音识别WebUI新手入门指南
你是不是也遇到过这些场景:
会议录音堆在文件夹里没时间听,想转成文字却要反复上传到各种在线工具;
客服培训需要分析上百条通话录音,手动听写耗时又容易漏掉关键信息;
做教学视频想加字幕,但语音转文字总把专业术语念错,还得一个字一个字改……
别折腾了。今天带你用Fun-ASR WebUI——一个不用写代码、不配环境、点几下就能跑起来的本地语音识别系统,把“听音频”这件事,变成“看文字”的日常操作。它不是另一个云服务链接,而是一个真正装在你电脑里的工具:音频不上传、隐私不外泄、识别不收费,连MacBook Air和RTX 3060台式机都能流畅运行。
这篇指南专为零基础用户设计:没有命令行恐惧,不讲模型原理,只说“你点哪里、输什么、看到什么结果”。从启动第一行命令开始,到导出第一份会议纪要,全程手把手,连浏览器怎么授权麦克风都给你标清楚。
1. 三步启动:5分钟让Fun-ASR在你电脑上跑起来
Fun-ASR WebUI 的最大特点,就是“开箱即用”。它不像传统AI工具需要装Python、配CUDA、下载模型权重——所有依赖都已打包好,你只需要执行一条命令。
1.1 启动服务(只需一行命令)
打开终端(Windows用CMD或PowerShell,Mac/Linux用Terminal),进入Fun-ASR WebUI所在文件夹,输入:
bash start_app.sh看到类似这样的输出,就说明启动成功了:
INFO: Uvicorn running on http://0.0.0.0:7860 (Press CTRL+C to quit) INFO: Application startup complete.小贴士:如果提示
bash: start_app.sh: command not found,请先用ls命令确认当前目录下是否存在start_app.sh文件;若不存在,请检查是否解压完整,或重新下载镜像包。
1.2 打开网页界面
启动完成后,在任意浏览器(推荐 Chrome 或 Edge)中输入地址:
- 如果你在本机使用→ 直接访问:http://localhost:7860
- 如果你在服务器上部署,想用手机或另一台电脑访问→ 访问:
http://你的服务器IP:7860(例如http://192.168.1.100:7860)
注意:首次访问可能需要几秒加载界面,页面右下角会显示“Loading…”。若长时间空白,请检查终端是否仍在运行,或尝试刷新(Ctrl+F5 / Cmd+Shift+R)。
1.3 界面初识:6个功能模块一目了然
打开后你会看到一个干净简洁的网页界面,顶部是导航栏,核心区域分为六大功能区:
| 模块名称 | 它能帮你做什么? | 新手建议优先试试 |
|---|---|---|
| 语音识别 | 上传一个音频文件,立刻转成文字 | 第一个必试 |
| 实时流式识别 | 对着麦克风说话,边说边出文字(模拟实时效果) | 第二个体验感强 |
| 批量处理 | 一次拖入10个、50个音频,自动排队识别、统一导出 | 后期提效主力 |
| 识别历史 | 查看所有转写记录,支持按关键词搜索、删除、清空 | 随时回溯 |
| VAD检测 | 自动找出音频里“有人说话”的时间段,跳过静音和噪音 | 处理长录音必备 |
| 系统设置 | 切换GPU/CPU、调整识别速度、清理内存、卸载模型 | 用熟后再调优 |
不用全记,先记住前两个就够了——它们覆盖了90%的日常需求。
2. 第一次识别:上传一段录音,亲眼看看它怎么“听懂人话”
我们从最简单的“语音识别”模块开始。这是整个WebUI的起点,也是你建立信心的第一步。
2.1 上传你的第一个音频
在“语音识别”标签页中,你会看到一个大大的上传区域:
方式一(推荐):上传已有文件
点击“上传音频文件”按钮 → 从电脑选择一段MP3/WAV/FLAC/M4A格式的录音(比如一段10秒的自我介绍)。
支持常见格式,无需转换;❌ 不支持视频文件(如MP4),请先用免费工具(如Audacity)提取音频。方式二:直接录音
点击右上角的麦克风图标 → 浏览器会弹出权限请求 → 点击“允许” → 开始说话 → 再点一次麦克风停止 → 自动上传。
小技巧:第一次测试,建议用自己清晰朗读的短句,比如:“今天天气很好,适合学习Fun-ASR。” 这样便于快速验证识别效果。
2.2 关键参数设置(3个开关,决定识别好不好)
上传后,别急着点“开始识别”,先花10秒调这几个实用选项:
🔹 目标语言(必选)
- 下拉菜单选择:中文(默认)、英文、日文
- 如果录的是中文,保持默认即可;❌ 不要选错,否则识别结果会完全混乱。
🔹 启用文本规整(ITN)(强烈建议开启)
- 开关设为ON
- 它的作用是把口语转成书面语:
- “二零二五年三月十五号” → “2025年3月15日”
- “一千二百三十四” → “1234”
- “百分之五十” → “50%”
- 日常使用几乎 always 开启,输出更干净、可直接复制使用。
🔹 热词列表(按需添加)
- 文本框里输入你希望重点识别的词,每行一个,例如:
Fun-ASR 科哥 钉钉 通义实验室 - 适合会议、课程、产品介绍等含专有名词的场景;❌ 普通对话可不填。
2.3 开始识别 & 查看结果
点击“开始识别”按钮,稍等1–10秒(取决于音频长度和设备性能),结果立刻出现:
- 识别结果:原始识别出的文字(可能带口语化表达)
- 规整后文本:经过ITN处理的规范文本(推荐直接复制使用)
成功示例(输入:“明天上午十点开会,讨论Fun-ASR部署问题”):
识别结果:明天上午十点开会讨论Fun ASR部署问题
规整后文本:明天上午10点开会,讨论Fun-ASR部署问题
你会发现标点、数字、连接符都自动补全了——这就是ITN的价值。
3. 边说边出字:用麦克风实现“类实时”语音转写
“语音识别”适合处理已有录音,而“实时流式识别”则让你体验“说话→出字”的即时反馈。虽然Fun-ASR模型本身不是原生流式架构,但WebUI通过VAD分段+快速推理,实现了足够自然的交互感。
3.1 准备工作:确保麦克风可用
- 插好麦克风(或用笔记本自带麦)
- 在浏览器地址栏左侧,点击锁形图标 → 找到“麦克风”权限 → 设为“允许”
- ❗ Safari用户注意:Safari对麦克风权限管理较严格,建议首次使用Chrome或Edge
3.2 操作流程(3步完成)
- 点击麦克风图标→ 开始录音(界面有红色圆点提示)
- 正常语速说话(建议每段2–5秒,说完停顿一下)
- 再点一次麦克风→ 停止录音并自动上传 → 点击“开始实时识别”
实验性提示:该功能本质是“分段识别”,不是逐字流式。所以你会看到:说一句→停顿→出一行字→再说下一句。延迟约1–2秒,但远胜于传统“录完再传”。
3.3 提升体验的3个实用建议
- 环境安静:关闭风扇、空调,远离马路噪音,准确率提升明显
- 距离适中:麦克风离嘴20–30cm,太近易爆音,太远收音弱
- 语速平稳:避免过快连读(如“这事儿得赶紧办”),适当断句更准
场景实测:用MacBook内置麦朗读一段技术文档,中文识别准确率约92%,专业术语(如“VAD检测”“ITN规整”)在添加热词后达100%。
4. 一次性处理50个音频:批量识别这样用才高效
当你需要处理培训录音、客户访谈、课堂实录等多文件任务时,“批量处理”就是你的效率加速器。
4.1 上传与配置(比单文件还简单)
- 点击“上传音频文件” →按住Ctrl(Windows)或Cmd(Mac)多选多个文件,或直接拖拽整个文件夹到上传区
- 设置统一参数:
- 目标语言(所有文件共用)
- ITN开关(所有文件共用)
- 热词列表(所有文件共用)
支持同时上传20–50个文件(建议不超过50,防内存压力)
❌ 不支持子文件夹嵌套,需提前把所有音频放在同一级目录
4.2 查看进度 & 导出结果
点击“开始批量处理”后,界面会显示实时进度条:
- 当前处理文件名(如
interview_03.mp3) - 已完成/总数(如
12/50) - 预估剩余时间(基于前几个文件的平均耗时)
处理完毕后,结果以列表形式呈现:
- 每行对应一个文件,显示:文件名、识别文本、耗时
- 点击右侧“查看”可展开完整结果(含规整前后对比)
- 点击“导出CSV”或“导出JSON”,一键下载结构化数据
导出的CSV文件,Excel可直接打开,列包括:filename,text,itn_text,duration,timestamp—— 方便后续导入Notion、飞书、Excel做二次分析。
5. 管理你的识别资产:历史记录不只是“看看而已”
每次识别的结果,WebUI都会自动存进本地数据库(路径:webui/data/history.db),形成你的专属语音转写知识库。
5.1 四大实用操作,一学就会
| 功能 | 怎么操作? | 为什么有用? |
|---|---|---|
| 查看全部 | 进入“识别历史”,默认显示最近100条,按时间倒序排列 | 快速回溯昨天的会议记录 |
| 关键词搜索 | 在搜索框输入“项目进度”或“预算”,自动高亮匹配的文件名和识别内容 | 从50条记录里秒找某次关键对话 |
| 查看详情 | 输入某条记录的ID(如#47)→ 点击“查看详情” → 显示完整信息:原始音频路径、全文、热词、ITN设置、时间戳 | 审计用:确认当时用了什么参数,结果是否可信 |
| 精准删除 | 输入ID → 点击“删除选中记录” → 确认 → 即删即失(不占空间) | 清理测试垃圾数据,保护隐私 |
5.2 数据安全提醒(重要!)
- 所有记录仅存在你本地电脑,不联网、不上传、不备份到任何云端
- 数据库文件
history.db可随时用SQLite工具(如DB Browser for SQLite)打开、导出、加密或备份 - 如需彻底清除:点击“清空所有记录”( 此操作不可撤销,请谨慎)
6. 让长音频变聪明:VAD检测帮你跳过“废话时间”
一段60分钟的会议录音,真正说话的时间可能只有25分钟。其余全是翻页声、咳嗽、静音、空调声——把这些无效片段一起送进ASR,既慢又不准。VAD(语音活动检测)就是来解决这个问题的“智能剪刀”。
6.1 一招学会VAD:3步切出有效语音段
- 上传长音频(比如一个45分钟的Zoom会议录音)
- 设置“最大单段时长”(默认30000ms=30秒):
- 如果说话节奏快、常有连续发言 → 可调高至45000(45秒)
- 如果常有短暂停顿、多人插话 → 建议调低至20000(20秒),避免切得太长
- 点击“开始VAD检测”→ 等待几秒 → 查看结果列表
6.2 结果怎么看?举个真实例子
检测后你会看到类似这样的结构化输出:
片段 1:00:01.200 – 00:04.850(时长3.65秒) → 识别文本:大家好欢迎参加Fun-ASR产品分享会 片段 2:00:07.100 – 00:12.300(时长5.2秒) → 识别文本:今天我们重点介绍本地部署方案和WebUI操作流程接下来你可以:
- 把这些片段单独导出为小音频,再用“语音识别”模块精转
- 或直接复制文本,用于会议摘要初稿
- 甚至把起止时间导入剪辑软件,快速剪出精华版视频
VAD不是万能的,对极低音量、远场录音或背景音乐混杂的音频效果会下降。但它在安静环境下的准确率超过90%,是长音频预处理的首选工具。
7. 调教你的Fun-ASR:系统设置里的3个关键开关
用熟了基础功能,就可以进“系统设置”微调性能。这里没有复杂参数,只有3个真正影响体验的开关:
7.1 计算设备:选对“引擎”,速度差2倍
| 选项 | 适合谁? | 效果说明 |
|---|---|---|
| CUDA (GPU) | 有NVIDIA显卡(RTX 3060及以上) | 首选!识别速度≈实时(1x) |
| MPS | Apple Silicon Mac(M1/M2/M3芯片) | Mac用户首选,性能接近同级GPU |
| CPU | 没独立显卡的轻薄本、老电脑 | 可用,但速度约慢一半(0.5x),适合偶尔使用 |
| 自动检测 | 不确定硬件,想省心 | 系统自动选最优,失败则降级 |
实测对比(3分钟中文音频):
- RTX 3060 GPU模式:耗时 ≈ 180秒
- M1 MacBook Air MPS模式:耗时 ≈ 210秒
- i7-11800H CPU模式:耗时 ≈ 360秒
7.2 缓存管理:让系统越用越顺
- 清理GPU缓存:识别卡顿、报错“CUDA out of memory”时,点它 → 立刻释放显存
- 卸载模型:长时间不用Fun-ASR时,点它 → 模型从内存卸载,释放GB级资源,电脑更流畅
7.3 性能设置(进阶用户可调)
- 批处理大小:增大可提速,但显存吃紧时易崩溃 → 新手保持默认
1 - 最大长度:控制单次识别最大字符数 → 默认
512足够,超长文本会自动截断
8. 遇到问题?这7个高频解答帮你秒解
新手上路难免卡壳。以下是真实用户最常问的7个问题,答案直接对应WebUI界面操作:
Q1:点击“开始识别”没反应,或一直转圈?
A:刷新页面(Ctrl+F5),检查终端是否还在运行start_app.sh;若仍不行,重启终端重跑命令。
Q2:识别结果全是乱码或空的?
A:确认音频格式是WAV/MP3/FLAC/M4A;检查是否误选了“英文”识别中文录音;关闭ITN再试一次。
Q3:麦克风按钮灰色,点不了?
A:浏览器地址栏点锁图标 → 找到“麦克风”→ 设为“允许”;换Chrome/Edge浏览器重试。
Q4:批量处理到第10个就卡住?
A:减少单批数量(建议≤30个);在“系统设置”中点“清理GPU缓存”;或改用CPU模式重试。
Q5:历史记录里找不到刚识别的文件?
A:检查是否在其他标签页(如“实时识别”)操作的——不同模块的历史是分开存储的。
Q6:导出的CSV打开是乱码?
A:用Excel打开时,选择“数据”→“从文本/CSV”→ 编码选“UTF-8” → 完美显示中文。
Q7:想换模型或升级,怎么操作?
A:当前镜像是“开箱即用”版,模型已固化。如需自定义模型,请参考官方GitHub仓库(由“科哥”维护)。
9. 从新手到熟练:3个马上能用的实战组合技
学完所有功能,不如直接上手3个高频场景组合,让你今天就能产出价值:
组合技1:10分钟搞定一场30分钟会议纪要
- 用VAD检测切出所有有效发言段(约5–8段)
- 将这些片段拖入“批量处理”,统一设为中文+ITN开启
- 导出CSV → Excel整理 → 复制到飞书文档,加标题分段 → 会议纪要完成
组合技2:客服录音质检自动化
- 把当月50条客服MP3放入“批量处理”
- 添加热词:“退款”“投诉”“满意度”“工单号”
- 导出后用Excel筛选含“投诉”的记录 → 人工复听重点质检
组合技3:个人知识库构建
- 每次听播客/课程,用“实时识别”边听边出字
- 结果自动进“识别历史” → 按日期搜索 → 导出为Markdown → 同步到Obsidian
- 一年积累,你就有了自己的AI语音知识图谱
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。