FunASR + speech_ngram_lm_zh-cn 构建高精度中文语音识别实战-开发者社区

FunASR + speech_ngram_lm_zh-cn 构建高精度中文语音识别实战

1. 引言

1.1 业务场景与技术背景

在智能客服、会议记录、教育录播和内容创作等实际应用中，高质量的中文语音识别（ASR）系统已成为不可或缺的技术组件。传统语音识别方案往往面临准确率不足、标点缺失、长音频处理效率低等问题，尤其在复杂口音或噪声环境下表现不佳。

FunASR 是由阿里云通义实验室开源的一套功能完整的语音识别工具包，支持离线/在线/混合模式识别，并集成了语音活动检测（VAD）、标点恢复（PUNC）、热词增强等多种实用功能。结合speech_ngram_lm_zh-cn这一基于大规模语料训练的中文N-gram语言模型，可显著提升识别结果的语言流畅性和上下文准确性。

本文将围绕“FunASR + speech_ngram_lm_zh-cn”的集成部署实践，详细介绍如何构建一个高精度、易用性强的中文语音识别系统，涵盖环境搭建、服务配置、性能优化及常见问题处理，帮助开发者快速落地真实项目。

1.2 方案核心价值

本方案具备以下关键优势：

高精度识别：Paraformer 大模型 + N-gram 语言模型联合解码，有效降低WER（词错误率）
端到端可用性：提供WebUI界面，支持文件上传与实时录音，开箱即用
灵活扩展能力：支持热词注入、多语言切换、时间戳输出，适配多种业务需求
轻量化部署：基于Docker容器化封装，兼容CPU/GPU环境，便于迁移与维护

2. 环境准备与镜像部署

2.1 基础依赖安装

确保服务器已安装 Docker 和 NVIDIA 驱动（若使用GPU加速）。未安装Docker时可通过以下脚本一键部署：

curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh sudo bash install_docker.sh

验证安装是否成功：

docker --version nvidia-smi # 若使用GPU

2.2 拉取并运行定制镜像

本文所使用的镜像是基于官方 FunASR 镜像进行二次开发，集成了speech_ngram_lm_zh-cn-ai-wesp-fst语言模型，由开发者“科哥”维护。执行以下命令拉取并启动容器：

sudo docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12 mkdir -p ./funasr-runtime-resources/models sudo docker run -p 10096:10095 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

说明： --p 10096:10095将容器内服务端口映射至主机10096 --v参数挂载本地模型目录，实现持久化存储与热更新 ---privileged=true授予容器更高权限以支持设备访问

3. 服务端配置与启动

3.1 启动2Pass混合识别服务

进入容器后，切换至运行目录并启动run_server_2pass.sh脚本，启用包含VAD、ASR、PUNC和N-gram LM的完整流水线：

cd /workspace/FunASR/runtime nohup bash run_server_2pass.sh \ --download-model-dir /workspace/models \ --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \ --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx \ --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \ --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \ --itn-dir thuduj12/fst_itn_zh \ --hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

参数解析：

参数	作用
`--model-dir`	主识别模型路径（含VAD+PUNC）
`--online-model-dir`	实时流式识别模型
`--lm-dir`	N-gram语言模型路径，用于提升语言连贯性
`--hotword`	热词文件路径，支持动态加载行业术语
`--download-model-dir`	自动下载模型缓存位置

✅推荐做法：首次运行会自动从 ModelScope 下载所需模型，建议提前预下载避免网络波动影响。

3.2 关闭SSL安全认证（可选）

如无需加密通信，可在启动参数中关闭SSL：

--certfile 0

这将禁用TLS加密，适用于内网测试环境，提升连接速度。

3.3 查看服务状态与日志

检查服务是否正常运行：

ps -x | grep funasr-wss-server-2pass tail -f log.txt

正常输出应包含如下信息：

INFO:root:WebSocket ASR Server start success! INFO:root:Model loaded: damo/speech_paraformer-large...

4. WebUI 使用指南

4.1 访问地址

服务启动后，在浏览器中打开：

http://localhost:7860

或远程访问：

http://<服务器IP>:7860

注意：需确保防火墙开放对应端口（如7860）

4.2 核心功能模块介绍

左侧控制面板

模型选择：
Paraformer-Large：高精度，适合正式场景
SenseVoice-Small：响应快，适合交互式对话
设备选择：
CUDA：GPU加速（推荐）
CPU：通用兼容模式
功能开关：
启用标点恢复（PUNC）：自动添加句号、逗号
启用VAD：自动分割静音段
输出时间戳：为每句话生成起止时间

右侧识别区域

支持两种输入方式：

上传音频文件
支持格式：WAV、MP3、M4A、FLAC、OGG、PCM
推荐采样率：16kHz
最大支持长度：5分钟（可通过批量大小调整）
浏览器实时录音
点击“麦克风录音”按钮开始录制
浏览器需授权麦克风权限
录音结束后点击“停止录音”，再执行识别

4.3 识别参数设置

参数	推荐值	说明
批量大小（秒）	300	控制每次处理的音频时长
识别语言	auto / zh	中文建议设为`zh`提升准确率

4.4 结果展示与导出

识别完成后，结果分为三个标签页显示：

文本结果：纯净文本，可直接复制使用
详细信息：JSON结构数据，含置信度、分词等
时间戳：按句/词划分的时间区间

支持导出格式：

格式	文件扩展名	应用场景
文本	.txt	内容提取
JSON	.json	数据分析
SRT	.srt	视频字幕制作

所有输出文件保存于：

outputs/outputs_YYYYMMDDHHMMSS/

例如：

outputs/outputs_20260104123456/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt

5. 性能优化与调参建议

5.1 提升识别准确率的关键措施

（1）启用N-gram语言模型

speech_ngram_lm_zh-cn-ai-wesp-fst是基于亿级中文文本训练的语言模型，能够有效纠正语法错误和同音误判。其工作原理是通过FST（有限状态转换器）对声学模型输出的候选序列进行重打分。

示例对比：

原始输出	加入LM后
“你好我叫小王我在北京工作”	“你好，我叫小王，在北京工作。”

可见，LM不仅补全了标点，还优化了语序连贯性。

（2）配置热词增强

创建/workspace/models/hotwords.txt文件，每行定义一个热词及其权重：

阿里巴巴 20 通义千问 15 杭州 10

权重范围建议为1~100，过高可能导致其他词汇抑制。

⚠️ 注意：热词总数不宜超过1000个，单个长度不超过10字，否则影响推理性能。

（3）选择合适模型组合

场景	推荐模型	是否启用LM
高精度转写	Paraformer-Large	✅
实时交互	SenseVoice-Small	❌（可选）
多语种混合	auto + multilingual model	✅

5.2 加速识别速度的方法

（1）使用GPU加速

确保设备选择为CUDA，并在启动脚本中确认ONNX Runtime支持GPU：

--model-thread-num 2 --decoder-thread-num 4

合理设置线程数可最大化利用显卡算力。

（2）分段处理长音频

对于超过5分钟的音频，建议手动切片处理，避免内存溢出和延迟累积。

（3）关闭非必要功能

测试阶段可临时关闭PUNC、VAD等功能以评估基础ASR性能。

6. 常见问题与解决方案

6.1 识别结果不准确

可能原因与对策：

音频质量差→ 使用降噪工具预处理（如RNNoise）
语言设置错误→ 明确指定zh而非auto
缺少领域热词→ 添加专业术语至hotwords.txt
未启用LM→ 检查--lm-dir参数是否正确加载

6.2 识别速度慢

原因	解决方案
使用CPU模式	切换至CUDA设备
模型过大	改用SenseVoice-Small
并发过多	减少`decoder-thread-num`
音频过长	分段处理

6.3 无法上传音频

检查文件格式是否支持（优先使用WAV/MP3）
确认文件大小 < 100MB
清除浏览器缓存或更换浏览器尝试

6.4 实时录音无声音

浏览器是否允许麦克风权限
系统麦克风是否被占用
检查音频输入设备设置

6.5 输出乱码或异常字符

确保音频编码为PCM（16bit, 16kHz）
检查模型语言是否匹配音频内容
尝试重新转换音频格式

7. 总结

7.1 实践经验总结

本文详细介绍了基于FunASR + speech_ngram_lm_zh-cn构建高精度中文语音识别系统的全流程，包括：

Docker镜像部署与服务启动
WebUI操作界面使用方法
N-gram语言模型的作用与集成方式
热词增强、标点恢复、时间戳输出等实用功能配置
性能调优与常见问题排查

通过合理配置模型组合与参数，可在保证识别速度的同时显著提升准确率，特别适用于会议纪要、教学转录、媒体字幕等对文字质量要求较高的场景。

7.2 最佳实践建议

生产环境务必启用N-gram LM：即使增加少量延迟，也能大幅提升语义合理性。
定期更新热词库：根据业务变化动态维护 hotwords.txt。
优先使用GPU部署：尤其在并发请求较多时，性能差异明显。
监控日志与资源占用：及时发现OOM、超时等问题。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。