热词提升准确率？Fun-ASR自定义词汇实测-开发者社区

热词提升准确率？Fun-ASR自定义词汇实测

在日常语音转写中，你是否遇到过这些情况：
会议里反复出现的“钉钉宜搭”被识别成“丁丁一搭”，
客服录音中的“400-123-4567”总被写成“四零零一二三四五六七”，
技术分享里提到的“Fun-ASR-Nano-2512”变成了一串无法辨认的音节……

这些问题并非模型能力不足，而是标准语音识别系统对领域专有名词、数字序列、品牌术语、业务黑话缺乏先验认知。好在 Fun-ASR 提供了一个轻量却高效的解决方案——热词（Hotwords）功能。它不依赖模型重训，无需修改架构，仅通过几行文本配置，就能显著拉升关键词汇的识别置信度。

本文不是泛泛而谈“热词有用”，而是带你亲手验证、量化对比、定位边界、总结规律：
热词到底能提升多少准确率？
哪些词加了有效，哪些加了白费？
一行一个、逗号分隔、大小写敏感吗？
实时流式识别和批量处理中，热词表现一致吗？
遇到识别失败，如何快速定位是热词没生效，还是音频本身问题？

所有结论均来自真实环境下的多轮实测（Fun-ASR WebUI v1.0.0，GPU 模式，模型 Fun-ASR-Nano-2512），代码可复现，结果可验证。

1. 热词机制原理：不是“词典替换”，而是“注意力引导”

在开始实测前，先破除一个常见误解：热词 ≠ 词典强制替换。
Fun-ASR 的热词功能并非在识别后做字符串替换（如把“丁丁一搭”硬改成“钉钉宜搭”），而是在模型解码阶段，动态增强对应 token 序列的输出概率。其底层逻辑更接近“软性提示（soft prompt）”——告诉模型：“这些词在当前上下文中出现的可能性更高，请适当倾斜打分”。

这带来两个关键特性：

上下文感知：热词只在语义合理处生效。例如添加“苹果”，当音频说“今天吃了个苹果”，会被正确识别；但若说“苹果公司发布新手机”，模型仍会优先输出“苹果公司”，而非强行切分为“苹果公司”。
❌非万能兜底：若音频质量极差（如严重失真、信噪比低于 5dB）、或热词本身发音模糊（如“通义千问”被念成“通一潜问”），热词无法扭转根本性误识。

技术补充说明：Fun-ASR 当前采用基于 CTC + Attention 的混合解码策略。热词通过构建 bias vector 注入 attention score 计算过程，在 beam search 中提升含目标子词路径的累积得分。该机制与 Whisper 的initial_prompt或 Paraformer 的hotword_bias思路相似，但实现更轻量，无需额外推理开销。

理解这一点，才能避免“加了热词就该100%正确”的预期偏差，也才能设计出真正有效的热词列表。

2. 实测设计：三组对照，覆盖典型业务场景

为确保结论可靠，我们设计了三组结构化测试，每组包含 5 条真实录音（非合成数据），涵盖不同挑战维度：

测试组	场景描述	核心挑战	热词示例
A组：企业服务术语	客服对话录音（咨询钉钉审批流程）	多音字、缩略语、平台专有名词	`钉钉宜搭`,`OA审批`,`智能人事`,`考勤打卡`,`审批流`
B组：数字与编号	会议纪要口述（项目进度同步）	连续数字、带符号号码、年份表达	`400-888-9999`,`2025Q2`,`V1.3.5`,`工单ID:20250405001`,`会议室B302`
C组：技术名词与人名	内部技术分享（介绍 Fun-ASR 架构）	英文缩写、大小写混用、非母语发音	`Fun-ASR`,`通义实验室`,`科哥`,`VAD检测`,`ITN规整`

实测方法

所有音频统一为 16kHz 单声道 WAV，时长 30–60 秒，信噪比约 20dB（模拟办公室环境）；
每条音频分别运行两次识别：
▪ 无热词模式（清空热词框，其他参数一致）
▪ 含热词模式（按上表填入对应热词，每行一个）
准确率计算方式：
准确率 = （正确识别的热词数量 / 热词总出现次数）× 100%
注：以人工校对原始音频为准，“正确识别”指输出文本与音频发音完全匹配，包括标点、连字符、大小写

3. 实测结果：热词效果显著，但存在明显“生效阈值”

3.1 整体准确率提升对比（单位：%）

测试组	无热词平均准确率	含热词平均准确率	提升幅度	关键观察
A组（企业术语）	68.2%	92.4%	+24.2%	“钉钉宜搭”从 50% → 100%，但“OA审批”仅从 75% → 85%，因“OA”常被念作“欧A”
B组（数字编号）	53.6%	89.1%	+35.5%	“400-888-9999”从 0% → 100%（原识别为“四零零八八八九九九九”），但“2025Q2”提升有限（80%→85%）
C组（技术名词）	41.7%	76.3%	+34.6%	“Fun-ASR”从 30% → 95%，但“科哥”仅 60% → 70%，因发音近似“哥哥”易混淆

数据说明：三组共 15 条音频，总计出现热词 87 次。无热词模式下正确识别 42 次（48.3%），含热词模式下正确识别 76 次（87.4%），整体提升 39.1 个百分点。

3.2 热词生效的关键规律

通过逐条分析错误案例，我们总结出热词能否生效的三大决定性因素：

规律一：发音清晰度 > 热词存在性

音频中“钉钉宜搭”发音清晰（/dīng dīng yí dā/），热词生效率达 100%；
同一音频中“智能人事”被快速连读为“智人shì”，热词未生效（模型仍输出“智能人事”但置信度低，最终被 beam search 舍弃）。
→启示：热词是“放大器”，不是“矫正器”。务必优先优化录音质量。

规律二：热词形式需匹配实际发音习惯

添加400-888-9999有效，但添加四零零八八八九九九九无效（模型未学习中文数字读法）；
添加Fun-ASR有效，但添加funasr或FUN-ASR无效（模型对大小写敏感，且连字符是关键分隔符）；
添加科哥有效，但添加kege无效（模型训练数据以中文拼音为主，未对英文拼写建模）。
→启示：热词应严格按“用户最可能说出的形式”填写，而非书面规范形式。

规律三：热词长度存在“黄金区间”

单字词（如“搭”、“Q”、“V”）几乎无效（易触发误匹配）；
2–4 字词（如“钉钉宜搭”“VAD检测”）效果最佳；
超长词（如“钉钉宜搭低代码开发平台”）生效率下降（模型难以将长序列作为整体强化）。
→启示：热词宜短不宜长，聚焦核心识别单元。

4. 工程实践指南：如何写出真正有效的热词列表

基于实测结论，我们提炼出一套可直接落地的热词编写规范，适用于所有 Fun-ASR 用户：

4.1 热词收集四步法

回溯历史记录：进入 WebUI → “识别历史”，搜索近期识别失败的关键词（如搜索“丁丁”看是否误识“钉钉”）；
标注发音难点：对候选词标注易错音节（如“宜搭”→ /yí dā/，“VAD”→ /vēi-ēi-dī/）；
验证发音一致性：用手机录音自己念 3 遍，确认是否稳定输出同一音节；
小批量验证：每次新增 3–5 个热词，用同一条音频测试，避免“全加全错”。

4.2 热词书写五不准

不准行为	错误示例	正确写法	原因
❌ 拼音替代	`dingdingyida`	`钉钉宜搭`	模型输入为中文文本，非拼音
❌ 符号滥用	`钉钉/宜搭钉钉&宜搭`	`钉钉宜搭`	斜杠、&等符号非热词支持字符，可能解析失败
❌ 大小写混用	`Fun-asrFUN-ASR`	`Fun-ASR`	模型对大小写敏感，需与常见书写一致
❌ 过度拆分	`钉钉宜搭低代码`	`钉钉宜搭低代码`	拆分后失去语义关联，降低强化效果
❌ 包含空格	`钉钉宜搭`	`钉钉宜搭`	空格会被忽略，等效于`钉钉宜搭`，但易引发格式混乱

4.3 热词管理建议（附可运行脚本）

热词列表随业务演进需持续更新。推荐用以下 Python 脚本自动化维护：

# save_hotwords.py - 管理热词版本与备份 import os import datetime HOTWORDS_DIR = "webui/data/hotwords" os.makedirs(HOTWORDS_DIR, exist_ok=True) # 当前热词（按业务线分类） biz_hotwords = [ "钉钉宜搭", "OA审批", "智能人事", "考勤打卡", "审批流", "400-888-9999", "2025Q2", "V1.3.5", "工单ID:20250405001", "会议室B302", "Fun-ASR", "通义实验室", "科哥", "VAD检测", "ITN规整" ] # 生成带时间戳的热词文件 timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S") filename = f"{HOTWORDS_DIR}/hotwords_{timestamp}.txt" with open(filename, "w", encoding="utf-8") as f: for word in biz_hotwords: f.write(word + "\n") print(f" 热词已保存：{filename}") print(f" 提示：在 WebUI 中上传此文件即可批量导入")

运行后生成hotwords_20250405_143022.txt，内容为规范格式热词，可直接拖入 WebUI 热词框。

5. 热词与其他功能的协同效应

热词并非孤立存在，它与 Fun-ASR 的其他功能组合使用，能释放更大价值：

5.1 热词 + ITN（智能文本规整）

场景：客服录音中频繁出现“四零零八八八九九九九”；
组合方案：热词设为400-888-9999，同时启用 ITN；
效果：模型先高概率输出400-888-9999（热词作用），ITN 再确保其不被规整为“四零零八八八九九九九”（ITN 默认保留带连字符号码）；
关键点：ITN 是后处理，热词是前引导，二者互补不冲突。

5.2 热词 + VAD 检测

场景：长会议录音（2小时）中，仅 15 分钟涉及关键产品名；
组合方案：先用 VAD 检测出语音活跃片段（如 12 个片段），再对每个片段单独设置热词识别；
效果：避免对静音段浪费算力，且热词在短片段中更易聚焦生效；
操作路径：VAD 检测 → 查看片段列表 → 点击某片段右侧“识别”按钮 → 在弹出窗口中填入热词。

5.3 热词 + 批量处理

场景：需处理 30 个销售培训录音，每个录音侧重不同产品线；
组合方案：将 30 个文件按产品线分组（如“钉钉组”“通义组”），每组使用对应热词列表；
效率提示：WebUI 批量处理支持“为每批设置独立热词”，无需重复上传。

6. 常见失效原因排查清单（附解决动作）

当热词未达预期效果时，按此清单逐项检查，90% 问题可快速定位：

排查项	检查方法	解决动作
① 热词格式错误	复制热词内容，粘贴到记事本，确认无隐藏空格/换行符	用纯文本编辑器重写，每行仅一个词
② 音频质量问题	用 Audacity 打开音频，查看波形是否平直（静音）或削顶（失真）	重新录音，保持 20cm 距离，关闭空调风扇
③ 模型未加载完成	进入“系统设置” → 查看“模型状态”是否显示“已加载”	若为“加载中”，等待直至状态变更；或点击“卸载模型”后重试
④ 语言设置不匹配	确认“目标语言”与音频实际语种一致（如中文录音勿选日文）	切换语言后重新识别
⑤ 热词超出长度限制	尝试将长热词拆为 2–3 个核心词（如“钉钉宜搭低代码” → “钉钉宜搭”“低代码”）	重新提交识别
⑥ 浏览器缓存干扰	按`Ctrl+Shift+R`强制刷新页面	刷新后重试