FunASR语音识别实战：集成speech_ngram_lm_zh-cn高效部署-开发者社区

FunASR语音识别实战：集成speech_ngram_lm_zh-cn高效部署

1. 引言

在语音识别技术快速发展的今天，构建一个高精度、低延迟的中文语音识别系统已成为智能应用开发的核心需求之一。FunASR作为一款功能强大且开源的语音识别工具包，支持多种模型和语言处理能力，尤其在中文场景下表现出色。

本文将围绕“FunASR语音识别基于speech_ngram_lm_zh-cn二次开发构建”这一镜像展开，详细介绍如何高效部署并实践使用该系统，重点集成speech_ngram_lm_zh-cn语言模型以提升中文识别准确率。通过WebUI交互界面与底层服务结合的方式，帮助开发者快速搭建可落地的语音识别解决方案。

本实践适用于需要本地化部署、注重隐私安全、追求高性能推理的企业或个人项目，涵盖环境准备、模型加载、参数配置及结果导出等完整流程。

2. 技术架构与核心组件解析

2.1 FunASR整体架构概述

FunASR采用模块化设计，其运行时（runtime）系统由多个独立但协同工作的组件构成：

ASR引擎：负责语音到文本的转换
VAD（Voice Activity Detection）：检测语音段落起止点
PUNC（标点恢复）：为识别结果自动添加标点符号
LM（Language Model）：语言模型用于纠正语法错误、提升语义连贯性
ITN（Inverse Text Normalization）：将数字、单位等标准化表达还原为自然读法

其中，speech_ngram_lm_zh-cn是专为中文优化的n-gram语言模型，能够显著改善识别结果的语言流畅度和准确性。

2.2 关键模型说明

模型名称	功能描述	是否必需
`damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx`	主ASR模型，集成VAD与标点	是
`damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx`	实时标点恢复模型	可选
`damo/speech_ngram_lm_zh-cn-ai-wesp-fst`	中文n-gram语言模型	推荐启用
`thuduj12/fst_itn_zh`	中文逆文本归一化模型	可选

核心价值：通过引入speech_ngram_lm_zh-cn，可在保持实时性的前提下有效降低WER（词错误率），尤其对专业术语、长句结构有明显优化效果。

3. 部署与启动流程详解

3.1 环境准备

确保服务器满足以下基本要求：

操作系统：Linux（Ubuntu/CentOS推荐）
Python版本：3.8+
GPU支持（可选）：CUDA 11.7+ + cuDNN
内存：≥8GB（建议16GB以上）
存储空间：≥10GB（含模型缓存）

安装Docker与Docker Compose（如未安装）：

# 安装 Docker curl -fsSL https://get.docker.com | sh sudo usermod -aG docker $USER # 安装 Docker Compose sudo curl -L "https://github.com/docker/compose/releases/latest/download/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose sudo chmod +x /usr/local/bin/docker-compose

3.2 拉取并运行定制镜像

使用科哥提供的定制镜像进行部署：

# 创建模型存储目录 mkdir -p ./funasr-runtime-resources/models # 拉取镜像 docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.13 # 启动容器（关闭SSL，挂载模型路径） docker run -p 10096:10095 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.13

进入容器后切换至运行目录：

cd /workspace/FunASR/runtime

3.3 启动服务端程序

执行带speech_ngram_lm_zh-cn的语言模型启动脚本：

nohup bash run_server_2pass.sh \ --certfile 0 \ --download-model-dir /workspace/models \ --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \ --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx \ --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \ --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \ --itn-dir thuduj12/fst_itn_zh \ --hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

注意：
--certfile 0表示禁用HTTPS，便于调试；
--lm-dir参数指定n-gram语言模型路径，这是提升中文识别质量的关键；
若需热词支持，请提前在/workspace/models/hotwords.txt文件中按格式填写（每行：热词权重）。

查看日志确认服务启动成功：

tail -f log.txt

当输出中出现"Model initialization completed"字样时，表示服务已就绪。

4. WebUI 使用指南与功能详解

4.1 访问 WebUI 界面

服务启动后，在浏览器访问：

http://<服务器IP>:7860

默认监听端口为7860，若防火墙开启需放行该端口。

4.2 控制面板功能说明

模型选择

Paraformer-Large：精度高，适合高质量录音场景
SenseVoice-Small：响应快，适合移动端或低延迟需求

设备模式

CUDA：GPU加速，大幅缩短推理时间（需NVIDIA显卡）
CPU：通用兼容，适合无GPU环境

功能开关

✅启用标点恢复 (PUNC)：自动补全句号、逗号等
✅启用VAD：自动分割静音段，提升断句准确率
✅输出时间戳：生成每个句子的时间区间，适用于字幕制作

操作按钮

加载模型：手动触发模型重新加载（修改配置后使用）
刷新状态：更新当前模型加载情况

5. 语音识别操作流程

5.1 方式一：上传音频文件识别

支持格式

.wav,.mp3,.m4a,.flac,.ogg,.pcm
推荐采样率：16kHz，单声道

操作步骤

点击“上传音频”按钮，选择本地文件
设置识别参数：
- 批量大小：60~600秒（默认300秒）
- 识别语言：auto（自动检测）、zh（中文）、en（英文）等
点击“开始识别”
查看结果并下载所需格式

结果展示标签页

文本结果：纯文本内容，可复制粘贴
详细信息：JSON格式，包含置信度、时间戳等元数据
时间戳：显示每句话的起止时间，便于后期编辑

5.2 方式二：浏览器实时录音识别

操作流程

点击“麦克风录音”按钮
浏览器请求权限 → 允许访问麦克风
开始说话，点击“停止录音”结束
点击“开始识别”处理录音
查看并导出结果

提示：建议在安静环境下录音，避免背景噪音影响识别效果。

6. 输出结果管理与导出

6.1 导出格式说明

格式	扩展名	用途
文本文件	`.txt`	直接用于文档编辑
JSON数据	`.json`	程序调用、二次处理
SRT字幕	`.srt`	视频剪辑、字幕嵌入

6.2 文件保存路径

所有输出文件统一保存在：

outputs/outputs_YYYYMMDDHHMMSS/

例如：

outputs/outputs_20260104123456/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt

每次识别生成独立目录，防止覆盖，便于追溯。

7. 性能优化与常见问题解决

7.1 提升识别准确率的策略

方法	说明
启用`speech_ngram_lm_zh-cn`	显著改善语法通顺性和专业词汇识别
添加热词	在`hotwords.txt`中配置行业术语，提高优先级
使用高质量音频	16kHz采样率、清晰人声、低噪声
开启VAD+PUNC	自动断句+标点恢复，提升可读性

7.2 常见问题排查

Q1：识别结果不准确？

✅ 检查是否启用了语言模型（--lm-dir）
✅ 确认音频质量良好，避免回声或杂音
✅ 尝试更换为主模型Paraformer-Large

Q2：识别速度慢？

⚠️ 若使用CPU模式，考虑升级至GPU版本
⚠️ 分段处理超过5分钟的长音频
⚠️ 切换为SenseVoice-Small模型以提速

Q3：无法上传大文件？

默认限制约100MB，可通过前端代码调整上传大小限制
建议将超长音频切分为小段处理

Q4：麦克风无响应？

检查浏览器是否允许麦克风权限
测试系统麦克风是否正常工作
更换Chrome/Firefox等主流浏览器尝试

8. 高级配置与扩展建议

8.1 自定义热词配置

编辑hotwords.txt文件，格式如下：

人工智能 30 深度学习 25 大模型 20

每行一个热词，权重范围1~100，数量建议不超过1000个。

重启服务或点击“加载模型”使配置生效。

8.2 多语言混合识别设置

对于中英混合语音，推荐设置：

{ "mode": "2pass", "wav_format": "pcm", "is_speaking": true, "chunk_size": [5,10,5], "itn": true, "svs_lang": "auto" }

使用SenseVoiceSmall模型可更好支持多语种识别。

8.3 API 接口调用示例（WebSocket）

可通过WebSocket协议接入自定义应用：

import websockets import asyncio async def send_audio(): uri = "ws://<server_ip>:10096" async with websockets.connect(uri) as ws: # 发送初始化消息 await ws.send('{"mode": "2pass", "chunk_size": [5,10,5], "is_speaking": true}') # 发送PCM音频流（分块发送） while has_more_data: chunk = read_pcm_chunk() await ws.send(chunk) # 结束标识 await ws.send('{"is_speaking": false}') # 接收识别结果 while True: res = await ws.recv() print(res)

9. 总结

本文系统介绍了基于“FunASR语音识别基于speech_ngram_lm_zh-cn二次开发构建by科哥”镜像的完整部署与使用流程，涵盖从环境搭建、服务启动、WebUI操作到结果导出的各个环节。

关键要点总结如下：

语言模型集成：通过启用speech_ngram_lm_zh-cn，显著提升中文识别准确率与语义连贯性。
双模识别支持：既支持上传音频文件，也支持浏览器实时录音，灵活适配不同场景。
多格式输出：提供.txt、.json、.srt三种常用格式，满足文档、程序、视频等多样化需求。
易用性强：图形化界面降低使用门槛，同时保留API接口供高级用户集成。
可扩展性好：支持热词、多语言、标点恢复等功能，可根据业务需求深度定制。

该方案特别适合教育、会议记录、客服质检、媒体字幕等中文语音处理场景，具备良好的工程落地价值。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。