从零搭建高精度语音识别系统｜FunASR + speech_ngram_lm

从零搭建高精度语音识别系统｜FunASR + speech_ngram_lm_zh-cn实战

1. 引言：构建中文语音识别系统的现实需求

在智能语音交互、会议记录转写、视频字幕生成等场景中，高精度的中文语音识别能力已成为关键基础设施。尽管市面上已有多种语音识别服务，但出于数据隐私、定制化需求和成本控制考虑，本地部署一套可自主掌控的语音识别系统显得尤为重要。

本文将基于FunASR框架与speech_ngram_lm_zh-cn语言模型，手把手带你从零开始搭建一个支持 WebUI 交互的高精度中文语音识别系统。该方案具备以下核心优势：

支持离线运行，保障数据安全
提供实时录音与文件上传双模式识别
集成标点恢复、语音活动检测（VAD）、时间戳输出等实用功能
可导出 TXT、JSON、SRT 多种格式结果，适配不同下游任务
基于 Docker 容器化部署，环境隔离且易于维护

通过本教程，你将掌握如何利用开源工具链快速构建企业级语音识别服务能力，并可根据业务需求进行二次开发扩展。

2. 技术选型解析：为什么选择 FunASR 与 speech_ngram_lm_zh-cn？

2.1 FunASR 框架的核心价值

FunASR 是由阿里云通义实验室推出的开源语音识别工具包，具备完整的端到端 ASR 流程支持，涵盖：

端点检测（VAD）
语音识别（ASR）
标点恢复（PUNC）
逆文本归一化（ITN）
在线/离线混合识别模式

其最大特点是提供了ONNX 推理支持和多语言 SDK 接口，便于集成至生产环境。同时，FunASR 支持 GPU 加速推理，在长音频处理场景下性能表现优异。

2.2 language model 的作用：speech_ngram_lm_zh-cn

传统的端到端语音识别模型虽然能直接输出文本，但在语义连贯性和语法正确性方面仍有不足。引入外部语言模型（Language Model, LM）可以显著提升识别准确率，尤其是在专业术语、数字表达和口语化表达上。

speech_ngram_lm_zh-cn是一个基于大规模中文语料训练的 N-Gram 语言模型，专为语音识别后处理优化设计。它通过以下方式增强识别效果：

对 ASR 初步输出的结果进行重打分（rescoring）
修正同音词错误（如“公式” vs “攻势”）
提升对常见短语和固定搭配的识别准确率

该模型以 FST（有限状态转换器）形式集成，可在解码阶段与声学模型联合使用，实现高效精准的识别输出。

2.3 架构整合优势

组件	功能
Paraformer-Large	高精度声学模型，适合高质量录音
SenseVoice-Small	轻量级模型，响应速度快
VAD 模块	自动切分语音段落，避免静音干扰
PUNC 模型	添加句号、逗号等标点符号
speech_ngram_lm_zh-cn	语言模型重打分，提升语义准确性

这种模块化设计使得系统既灵活又强大，用户可根据实际资源情况自由组合使用。

3. 系统部署全流程详解

3.1 环境准备与依赖安装

首先确保主机已安装以下基础组件：

Ubuntu 20.04 / 22.04 或 CentOS 7+
NVIDIA 显卡驱动（若启用 GPU）
Docker ≥ 20.10
NVIDIA Container Toolkit（GPU 用户必装）

安装 Docker

curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh sudo bash install_docker.sh

将当前用户加入 docker 组

sudo usermod -aG docker $USER

⚠️ 执行后需重新登录或重启终端使权限生效。

安装 NVIDIA 容器支持（GPU 用户）

# 添加仓库密钥 curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - # 配置源 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list # 更新并安装 sudo apt-get update sudo apt-get install -y nvidia-container-toolkit # 重启 Docker sudo systemctl restart docker

3.2 拉取并运行 FunASR 容器镜像

# 创建模型存储目录 mkdir -p ./funasr-runtime-resources/models # 拉取官方镜像（CPU 版本示例） sudo docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6 # 启动容器（映射端口与卷） sudo docker run -p 10095:10095 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

💡 若使用 GPU，请替换为funasr-runtime-sdk-gpu-0.4.6镜像，并添加--gpus all参数。

3.3 启动 ASR 服务进程

进入容器后，切换至运行目录并启动服务脚本：

cd /workspace/FunASR/runtime nohup bash run_server_2pass.sh \ --model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx \ --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \ --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \ --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \ --itn-dir thuduj12/fst_itn_zh \ --certfile 0 \ --keyfile ../../../ssl_key/server.key \ --hotword ../../hotwords.txt > log.txt 2>&1 &

此命令启用了两阶段识别（2-pass），结合了流式与非流式优势，适用于长音频高精度转写。

3.4 部署 WebUI 界面（科哥二次开发版）

为了提升用户体验，我们采用社区开发者“科哥”基于 Gradio 开发的 WebUI 界面，支持图形化操作。

步骤 1：克隆项目代码

git clone https://github.com/kege/funasr-webui.git cd funasr-webui

步骤 2：安装 Python 依赖

pip install gradio numpy torch onnxruntime-gpu

使用 CPU 时请安装onnxruntime；GPU 用户务必安装onnxruntime-gpu以启用 CUDA 加速。

步骤 3：修改配置指向 ASR 服务

编辑app.py文件中的连接地址：

client = FunASRWSSClient( host="localhost", port=10095, mode="2pass" )

确保 IP 地址与端口与后台服务一致。

步骤 4：启动 WebUI 服务

python app.main.py --port 7860

启动成功后，访问浏览器地址：

http://localhost:7860

即可看到如下界面：

4. 使用指南：两种识别方式全解析

4.1 方式一：上传音频文件识别

支持格式

WAV (.wav) —— 推荐，无损压缩
MP3 (.mp3) —— 常见通用格式
M4A (.m4a), FLAC (.flac), OGG (.ogg), PCM (.pcm)

✅ 建议采样率为 16kHz，单声道，保证最佳识别效果。

操作流程

点击【上传音频】按钮选择本地文件
设置参数：
- 批量大小：默认 300 秒（5 分钟），最长支持 600 秒
- 识别语言：auto（自动检测）、zh（中文）、en（英文）等
勾选功能开关：
- ✅ 启用标点恢复
- ✅ 启用 VAD
- ✅ 输出时间戳
点击【开始识别】等待处理完成

结果展示

识别完成后，结果分为三个标签页显示：

标签页	内容说明
文本结果	清洁后的纯文本，可直接复制使用
详细信息	JSON 格式完整输出，含置信度、时间戳等元数据
时间戳	按词或句子划分的时间区间列表

4.2 方式二：浏览器实时录音识别

操作步骤

点击【麦克风录音】按钮
浏览器弹出权限请求，点击【允许】授权麦克风
开始说话，录制完毕后点击【停止录音】
点击【开始识别】提交处理

📌 实时录音基于 HTML5 MediaRecorder API 实现，无需额外插件。

注意事项

录音质量受环境噪音影响较大，建议在安静环境下使用
若未触发录音，请检查浏览器是否阻止了摄像头/麦克风权限
可尝试更换 Chrome 或 Edge 浏览器以获得更好兼容性

5. 输出管理与高级配置

5.1 结果导出功能对比

导出类型	文件扩展名	适用场景
下载文本	`.txt`	快速提取内容，用于文档整理
下载 JSON	`.json`	开发调试、结构化分析
下载 SRT	`.srt`	视频剪辑、字幕嵌入

所有输出文件统一保存在：

outputs/outputs_YYYYMMDDHHMMSS/

每次识别生成独立时间戳目录，防止覆盖冲突。

示例结构：

outputs/outputs_20260104123456/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt

5.2 高级参数调优建议

参数	推荐值	说明
批量大小	300s	平衡内存占用与处理效率
识别语言	auto	多语种混合内容首选
设备选择	CUDA	有 GPU 时必须启用以加速推理
模型选择	Paraformer-Large	追求精度优先
SenseVoice-Small	实时性要求高时选用

5.3 性能优化技巧

分段处理超长音频
单次识别不超过 10 分钟，避免内存溢出。
预降噪处理输入音频
使用 Audacity 或 FFmpeg 对低质量录音做前置滤波。
自定义热词增强识别
修改hotwords.txt文件添加领域关键词，提升专有名词识别率。
启用 ITN（逆文本归一化）
将“2026年”、“百分之八十”等口语表达规范化为标准书写形式。

6. 常见问题排查与解决方案

问题现象	可能原因	解决方法
识别结果不准确	音频质量差、语言设置错误	更换清晰录音，明确指定语言
识别速度慢	使用 CPU 模式	启用 GPU，安装`onnxruntime-gpu`
无法上传文件	文件过大或格式不支持	控制在 100MB 内，转为 MP3/WAV
录音无声	浏览器权限被拒	检查麦克风权限设置
输出乱码	编码异常或模型加载失败	重启服务，确认模型路径正确
服务无法启动	端口占用或依赖缺失	查看日志`log.txt`定位错误

🔍 日志查看命令：tail -f log.txt

7. 总结

本文系统介绍了如何基于FunASR与speech_ngram_lm_zh-cn构建一套完整的本地化中文语音识别系统。通过容器化部署 + WebUI 交互的方式，实现了开箱即用的高可用性体验，特别适合以下应用场景：

企业内部会议纪要自动化生成
教育培训课程语音转文字
医疗问诊记录数字化
视频内容自动字幕制作

该方案不仅具备高精度识别能力，还支持灵活的功能扩展与二次开发。未来可进一步集成：

自定义词库动态加载
多通道音频分离识别
实时翻译联动输出
RESTful API 对外服务封装

掌握这套技术栈，意味着你已经拥有了构建专业级语音产品的核心能力。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

从零搭建高精度语音识别系统｜FunASR + speech_ngram_lm_zh-cn实战