手把手教你部署Fun-ASR，语音识别不再难-开发者社区

手把手教你部署Fun-ASR，语音识别不再难

你是否还在为会议录音转文字耗时费力而发愁？
是否试过多个在线语音识别工具，却总被时长限制、网络延迟、隐私顾虑卡住手脚？
有没有想过——把专业级语音识别系统，像安装微信一样装进自己的电脑，全程离线、不传云端、点开即用？

Fun-ASR 就是这样一个答案。它不是又一个需要注册账号、按分钟计费的SaaS服务，而是由钉钉与通义实验室联合推出、由开发者“科哥”深度打磨的本地化语音识别大模型系统。它支持GPU加速、提供完整WebUI界面、覆盖中英日等31种语言，更重要的是：所有音频文件只在你本地处理，识别结果只存你自己的硬盘里。

本文不讲抽象原理，不堆技术参数，就用最直白的语言、最真实的步骤、最容易踩的坑，带你从零开始——
一键启动服务
上传一段录音立刻出文字
给客服话术加热词提升准确率
批量处理十段培训音频
查看、搜索、备份每一次识别记录

全程无需写代码、不配环境、不查文档，就像打开一个智能语音助手那样简单。准备好了吗？我们这就开始。

1. 三步完成部署：不用懂Docker也能跑起来

Fun-ASR 镜像已为你预装好全部依赖：模型权重、推理框架（Whisper/FunCodec融合架构）、WebUI前端、SQLite数据库、VAD语音检测模块……你只需要做三件事。

1.1 下载并解压镜像包

前往CSDN星图镜像广场搜索“Fun-ASR”，下载最新版压缩包（如funasr-webui-v1.0.0-linux-x64.tar.gz）。
解压到任意目录，例如：

mkdir -p ~/funasr tar -xzf funasr-webui-v1.0.0-linux-x64.tar.gz -C ~/funasr

解压后你会看到这些关键文件夹：

webui/：Web界面与后端服务
models/：已内置 Fun-ASR-Nano-2512 模型
start_app.sh：一键启动脚本
stop_app.sh：安全停止脚本

小贴士：Windows用户请使用7-Zip解压；Mac用户注意检查是否启用“允许来自未知开发者的应用”（系统设置 → 隐私与安全性 → 允许）。

1.2 运行启动脚本（只需一行命令）

打开终端（Linux/macOS）或命令提示符（Windows），进入解压目录，执行：

cd ~/funasr bash start_app.sh

你会看到类似这样的输出：

检测到 CUDA 可用，将启用 GPU 加速 模型加载中（Fun-ASR-Nano-2512）... WebUI 服务启动成功 访问地址：http://localhost:7860

如果看到CUDA out of memory或No module named 'torch'，别慌——这是常见问题，我们放在第4节统一解决。

1.3 在浏览器中打开，正式进入语音世界

打开 Chrome、Edge 或 Firefox 浏览器，在地址栏输入：

本机使用：http://localhost:7860
远程服务器（如群晖、云主机）：http://你的服务器IP:7860（确保防火墙放行7860端口）

页面加载完成后，你会看到一个清爽的蓝色主界面，顶部导航栏清晰列出六大功能：语音识别、实时流式识别、批量处理、识别历史、VAD检测、系统设置。

此刻，你已经拥有了一个完全私有、可离线运行的专业语音识别系统。不需要联网调用API，不依赖任何外部服务，所有计算都在你自己的设备上完成。

2. 第一次识别：上传一段录音，30秒内拿到文字稿

我们从最基础也最常用的场景开始：把一段会议录音变成可编辑的文字。

2.1 上传音频文件（两种方式任选）

方式一（推荐）：点击“上传音频文件”按钮
支持 WAV、MP3、M4A、FLAC 等主流格式，单文件最大支持200MB（足够处理2小时录音）。
注意：MP3文件若含ID3标签（如歌手名、专辑封面），可能干扰识别。建议用Audacity等工具先“导出为WAV”再上传。
方式二：点击麦克风图标，直接录音
适合快速测试。点击后浏览器会请求麦克风权限，请务必点击“允许”。录音时界面显示实时波形，点击“停止”即保存为临时WAV文件。

2.2 关键参数设置（三选一，小白友好）

你不需要调任何“高级参数”，但以下三个选项能显著提升识别质量，我们用生活化语言解释：

设置项	你该怎么选？	为什么重要？
目标语言	默认中文 ✔；如果是英文会议录音，选“English”	选错语言会导致整段识别失败，就像用中文词典查英文单词
启用文本规整（ITN）	强烈建议开启✔	把“一千二百三十四”自动转成“1234”，把“二零二五年”转成“2025年”，让结果更符合书面表达习惯
热词列表	初次使用可跳过；后续处理客服/医疗/法律类录音时再添加	比如你常听“钉钉宜搭”“通义万相”，系统默认可能识别成“顶顶易搭”“同义万象”。加进热词后，准确率直线上升

示例热词填写（每行一个，无需引号）：

钉钉宜搭 通义万相 Fun-ASR 科哥 ASR系统

2.3 开始识别 & 查看结果

点击“开始识别”按钮，进度条开始流动。根据音频长度和硬件不同，耗时如下：

音频时长	CPU模式（无显卡）	GPU模式（NVIDIA显卡）
1分钟	约40秒	约8秒
10分钟	约6分钟	约1分10秒

识别完成后，界面右侧会显示两栏结果：

识别结果：模型原始输出，保留口语停顿和重复（如“这个…这个方案我觉得…”）
规整后文本：ITN处理后的干净版本（如“这个方案我觉得…”），适合直接复制进Word或飞书文档

实测小技巧：用手机录一段30秒的日常对话（比如“今天下午三点开会，讨论项目上线时间”），上传后你会发现——它真的能听懂你在说什么，而且标点基本合理。

3. 提效神器：批量处理+历史管理，告别重复劳动

单次识别只是入门，真正释放Fun-ASR价值的，是它对“工作流”的支持。

3.1 批量处理：一次搞定十段培训录音

假设你刚结束一场为期三天的内部培训，手头有12个MP3文件，每个30分钟。手动上传12次？不，只需三步：

点击“批量处理” → “上传音频文件”，一次性勾选全部12个文件（支持拖拽）
在参数区统一设置：语言=中文、启用ITN=✔、热词=填入“培训大纲”“考核标准”等关键词
点击“开始批量处理”

系统会自动排队处理，界面实时显示：

当前处理：training_day2_part3.mp3（已完成 82%）
已完成/总数：7 / 12
预估剩余时间：约2分15秒

处理完毕后，你可以：

点击任意文件名，查看其专属识别结果
点击“导出全部” → 选择CSV格式 → 得到一个Excel表格，含“文件名”“原始文本”“规整文本”三列
点击“下载ZIP” → 打包所有.txt结果文件，方便发给同事

真实用户反馈：某教育公司用此功能处理200+小时新员工培训录音，人工转写需3人×10天，Fun-ASR仅用1台RTX4090服务器，22小时全部完成，准确率超92%（经人工抽检）。

3.2 识别历史：你的语音知识库，随时可查可管

每次识别的结果，不会一闪而过。Fun-ASR会自动存入本地数据库webui/data/history.db，形成你的专属语音资产库。

进入“识别历史”页面，你会看到：

最近100条记录（按时间倒序排列）
每条含：ID编号、时间、文件名、一句话摘要（前20字）、语言标识

三大高频操作，5秒内完成：

搜索某次记录：在搜索框输入“周报”“Q3”“客户反馈”，系统秒级返回匹配项
👁查看详情：点击ID“#87”，弹出完整信息页——含原始音频路径、热词列表、ITN开关状态、双版本文本
🗑精准清理：选中ID“#45”“#66”，点击“删除选中记录”，确认后即移除（不占空间，不伤其他记录）

重要提醒：“清空所有记录”是物理删除，不可恢复。建议养成习惯：每周五下班前，导出一次CSV备份到网盘。

4. 常见问题实战指南：别人踩过的坑，你不必再踩

部署和使用过程中，90%的问题都高度集中。我们把文档里的“常见问题”转化成真实场景+可执行动作。

4.1 “页面打不开，显示连接被拒绝”？

→不是程序没启动，而是端口被占了
执行这行命令查谁在用7860端口：

lsof -i :7860 # macOS/Linux netstat -ano | findstr :7860 # Windows

如果看到其他进程（如另一个Fun-ASR、Jupyter），执行：

bash stop_app.sh # 先停止旧服务 bash start_app.sh # 再启动

4.2 “识别速度慢得像卡顿，1分钟音频要等2分钟”？

→大概率没用上GPU
在“系统设置”中检查“计算设备”：

若显示“CPU”，说明未检测到CUDA
解决方案：
- Linux用户：安装NVIDIA驱动 + CUDA Toolkit 12.1
- Windows用户：下载GeForce Experience，一键更新驱动
- Mac用户：切换为“MPS”模式（Apple Silicon芯片专属加速）

验证是否生效：识别时观察GPU占用率（nvidia-smi 或活动监视器），若稳定在30%以上，说明加速成功。

4.3 “中文识别还行，但英文总是漏词”？

→不是模型不行，是语言没选对
Fun-ASR支持31种语言，但中文模型 ≠ 英文模型。
当你上传英文录音时，必须手动将“目标语言”从“中文”切换为“English”。否则系统强行用中文模型硬译，效果必然打折。

4.4 “麦克风录音后，识别结果全是乱码或空白”？

→浏览器权限未正确授予
Chrome/Edge用户：点击地址栏左侧的锁形图标 → “网站设置” → “麦克风” → 选择“允许”
Firefox用户：地址栏右侧“摄像头图标” → “允许”
Safari用户：Safari → 偏好设置 → 网站 → 摄像头/麦克风 → 找到你的IP地址 → 设为“允许”

4.5 “上传大文件时，页面卡死或提示‘文件过大’”？

→不是Fun-ASR限制，而是浏览器默认限制
解决方案（任选其一）：

用FFmpeg压缩音频：ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav（降采样+单声道，体积减70%）
改用WAV格式上传（无压缩，解析更快）
在start_app.sh中修改--max-file-size参数（需重启服务）

5. 进阶玩法：VAD检测+系统调优，让识别更聪明

当你已熟练使用基础功能，可以解锁两个让Fun-ASR“更懂你”的能力。

5.1 VAD检测：自动切分长音频，省去手动剪辑

传统做法：用Audacity听2小时会议录音，手动标记“说话段落”，再分段上传。
Fun-ASR的VAD（语音活动检测）功能，帮你全自动完成。

操作流程：

上传一个2小时MP3会议录音
进入“VAD检测”，设置“最大单段时长=30000ms”（即30秒）
点击“开始VAD检测”

几秒后，你会看到结构化结果：

检测到 47 个语音片段： [1] 00:02:15 - 00:02:48 (33s) → “大家好，今天我们讨论…” [2] 00:03:02 - 00:03:25 (23s) → “我来汇报一下进度…” ...

点击“导出片段”，系统自动生成47个独立WAV文件，命名含时间戳（如meeting_000215_000248.wav），可直接拖入“批量处理”识别。

场景价值：法务合同审阅、医生问诊录音分析、客服质检抽样——所有需要从长音频中精准定位“人声段落”的任务，VAD都是第一道智能过滤器。

5.2 系统设置调优：平衡速度、显存、准确率

在“系统设置”中，有三个参数值得你关注：

参数	推荐值	影响说明
批处理大小	GPU用户设为`4`；CPU用户保持`1`	增大可提升吞吐量，但显存不足时会报错
最大长度	保持默认`512`	控制单次推理最大token数，过大会导致OOM
清理GPU缓存	识别卡顿时，点它！	立即释放显存，比重启服务快10倍

科哥亲测：RTX3090用户将批处理大小从1调至4，10分钟音频批量处理时间从8分12秒降至3分45秒，显存占用仍控制在78%以内。

6. 数据安全必修课：`history.db`备份与迁移

最后，也是最重要的一步：保护你的语音资产。

Fun-ASR的所有识别历史，都存在一个叫history.db的SQLite文件里（路径：webui/data/history.db）。它不大，通常几MB，但里面存着你过去所有努力的痕迹——会议纪要、客户反馈、培训要点。

千万别等到误删才后悔。现在就做三件事：

6.1 立即手动备份（10秒完成）

# 复制当前数据库（带时间戳，防覆盖） cp webui/data/history.db webui/data/history_$(date +%Y%m%d_%H%M%S).db

6.2 设置每日自动备份（Linux/macOS）

编辑定时任务：

crontab -e # 添加这一行（每天凌晨2点备份） 0 2 * * * cp /path/to/funasr/webui/data/history.db /backup/history_$(date +\%Y\%m\%d).db

6.3 跨设备同步（笔记本 ↔ 台式机）

将整个funasr/文件夹放入阿里云盘或iCloud同步目录
关键前提：两台设备不要同时运行Fun-ASR（避免数据库写冲突）
更稳妥做法：一台作为主力，另一台定期cp history.db覆盖

安全底线：只要history.db文件完好，你就能随时恢复全部识别历史。它就是你的语音“时间胶囊”。

总结：你已掌握一套完整的本地语音生产力系统

回顾这一路，你完成了：

部署层面：三行命令启动专业ASR服务，全程离线，隐私无忧
使用层面：从单文件识别到批量处理，从实时录音到VAD切片，覆盖95%语音工作场景
管理层面：建立识别历史知识库，掌握搜索、导出、备份全流程
调优层面：学会看GPU占用、设热词、调参数，让系统越用越顺手

Fun-ASR的价值，从来不只是“把声音变文字”。它是你会议效率的加速器、培训内容的沉淀池、客户服务的质检员、个人知识的录音笔。而这一切的起点，就是今天你亲手部署成功的这个蓝色界面。

下一步，不妨打开它，上传一段你最近的语音——也许是昨天的灵感碎片，也许是上周的会议录音，也许是孩子第一次说“爸爸”的珍贵时刻。让Fun-ASR，帮你把声音，变成可搜索、可编辑、可传承的文字。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手把手教你部署Fun-ASR，语音识别不再难