中文数字读法纠正：Sambert文本归一化规则配置教程-开发者社区

中文数字读法纠正：Sambert文本归一化规则配置教程

1. Sambert 多情感中文语音合成——开箱即用版

你有没有遇到过这种情况：输入“2025年3月15日”，语音合成系统却念成了“二零二五”而不是“二千零二十五”？或者“第1名”被读成“第一一名”？这种不自然的数字读法，严重影响了语音合成的真实感和用户体验。

这背后的问题，出在**文本归一化（Text Normalization）**环节。而我们今天要讲的主角——Sambert语音合成镜像，虽然功能强大、支持多发音人和情感控制，但默认的文本处理规则对中文数字的处理并不理想。好消息是，它完全支持自定义规则配置，只需稍作调整，就能让数字读得更地道、更符合口语习惯。

本文将手把手教你如何修改 Sambert 的文本归一化规则，重点解决中文数字、日期、序数词等常见场景的读法问题，让你的语音合成效果从“能用”升级到“好用”。

2. 镜像环境与核心能力

2.1 开箱即用的优化版本

本镜像基于阿里达摩院开源的Sambert-HiFiGAN 模型，但我们做了关键优化：

深度修复ttsfrd二进制依赖缺失问题
解决 SciPy 接口兼容性报错（常见于新版 Python）
内置 Python 3.10 环境，避免版本冲突
支持“知北”、“知雁”等多个高质量中文发音人
支持情感风格迁移，可生成欢快、温柔、严肃等多种情绪语音

这意味着你不需要再为环境配置头疼，下载即运行，真正实现“一键部署、马上体验”。

2.2 文本归一化：语音合成的第一道关卡

在语音合成流程中，原始文本并不会直接送入模型。它必须先经过一个叫**文本归一化（Text Normalization, TN）**的预处理步骤。这个步骤的作用是：

把非标准写法的文本，转换成适合朗读的标准中文发音形式。

比如：

“￥199” → “一百九十九元”
“2025-03-15” → “二零二五年三月十五日” 或 “二千零二十五年三月十五日”
“No.1” → “第一名”

Sambert 使用的是基于规则的 TN 系统，规则文件以 JSON 格式存储，我们可以直接编辑它来定制行为。

3. 修改中文数字读法规则

3.1 找到规则文件

Sambert 的文本归一化规则通常位于模型目录下的tn_rules/文件夹中，核心文件是：

tn_rules/number.json

这个文件定义了数字、小数、百分比、序数词等的转换逻辑。

3.2 默认规则的问题

打开number.json，你会发现类似这样的规则：

{ "pattern": "(\\d+)", "replacement": " $1 ", "description": "split digits" }

这种简单拆分会导致“2025”被逐字读成“二零二五”，而不是“二千零二十五”。我们需要更智能的规则。

3.3 添加中文数字读法规则

我们来添加一条新规则，专门处理四位整数的“千位读法”。

示例：让“2025”读作“二千零二十五”

在number.json中添加如下规则（建议放在靠前位置）：

{ "pattern": "([1-9])000", "replacement": "$1千", "description": "如 1000 -> 一千" }, { "pattern": "([1-9])0(\\d{2})", "replacement": "$1千零$2", "description": "如 1025 -> 一千零二十五" }, { "pattern": "([1-9])([1-9])00", "replacement": "$1$2百", "description": "如 1200 -> 十二百" }, { "pattern": "([1-9])([1-9])([1-9])", "replacement": "$1$2$3", "description": "三位数正常读" }

这些正则规则的意思是：

([1-9])000：匹配“1000”、“2000”这类整千数，替换为“X千”
([1-9])0(\\d{2})：匹配“1025”这种中间带0的四位数，读作“X千零XX”
其他情况按常规方式处理

3.4 处理日期中的年份

很多人希望“2025年”读作“二零二五年”，而不是“二千零二十五年”。我们可以单独为日期场景设置规则。

在date.json文件中找到年份处理部分，修改或添加：

{ "pattern": "(\\d{4})年", "replacement": "$1年", "postprocess": "digits_to_chinese($1) + '年'", "description": "年份逐字读" }

这里的digits_to_chinese是内置函数，会把每个数字转成中文单字。

如果你希望某些年份（如2000年后）用“两千零一年”方式读，可以加判断逻辑，例如：

{ "pattern": "(20[0-2]\\d)年", "replacement": "二千零$1后两位年", "description": "2000-2029 年特殊读法" }

（注：实际需结合脚本函数实现，此处为示意）

4. 序数词与编号的正确读法

4.1 “第1名”应该读“第一名”，不是“第一一名”

这是最常见的错误之一。Sambert 默认可能把“第1”拆成“第”+“1”，然后“1”被读成“一”，导致重复。

解决方案：在number.json中添加优先级更高的规则：

{ "pattern": "第(\\d+)", "replacement": "第$1", "postprocess": "replace_ordinal($1)", "description": "第X名 正确读法" }

并确保系统中有replace_ordinal函数，其逻辑如下（Python 示例）：

def replace_ordinal(num_str): # 将数字转为中文序数词 mapping = {"1": "一", "2": "二", "3": "三", "4": "四", "5": "五"} return "第" + mapping.get(num_str, num_str)

4.2 “No.1”、“Item 3”等英文编号

这类混合文本也需要特别处理。建议在abbreviation.json中添加：

{ "pattern": "No\\.(\\d+)", "replacement": "第$1名" }, { "pattern": "Item (\\d+)", "replacement": "项目第$1个" }

这样就能自动转换为中文口语表达。

5. 实际测试与效果对比

5.1 测试用例设计

修改完规则后，一定要进行充分测试。以下是一些典型测试句：

输入文本	期望读法	常见错误
2025年	二零二五年	二千零二十五年
1025人	一千零二十五人	一二五人
第1名	第一名	第一一名
价格￥199	价格一百九十九元	价格一九九元
房号302	三零二房	三百零二房

5.2 如何测试

启动服务后，通过 Web 界面或 API 输入测试文本，听输出音频是否符合预期。

如果使用命令行，可以运行：

python synthesize.py --text "2025年，第1名获得1025元奖金" --speaker 知北

重点关注数字部分的发音是否自然。

5.3 效果提升对比

场景	修改前	修改后
数字读法	机械、生硬	自然、接近真人
日期年份	固定模式	可定制（逐字/千位）
序数词	重复、错误	准确、流畅
用户体验	需手动改写文本	直接输入即可

一次规则配置，长期受益。

6. 进阶技巧与最佳实践

6.1 规则优先级很重要

Sambert 的规则是按顺序匹配的。所以要把更具体的规则放在前面。

比如：

[ { "pattern": "第(\\d+)", ... }, // 先处理“第X” { "pattern": "(\\d+)", ... } // 再处理普通数字 ]

如果顺序反过来，“第1”会被先拆成“1”，就无法正确识别为序数词。

6.2 使用上下文感知规则

有些场景需要结合上下文判断读法。例如：

“电话号码：13812345678” → 应逐字读
“人数：138” → 应读作“一百三十八”

可以通过添加上下文关键词来区分：

{ "pattern": "电话号码[:：](\\d+)", "replacement": "电话号码 $1", "postprocess": "read_digits($1)" }

6.3 备份原始规则

在修改任何.json文件前，请先备份：

cp tn_rules/number.json tn_rules/number.json.bak

万一改出问题，可以快速恢复。

6.4 逐步迭代，不要一次性大改

建议每次只修改1-2条规则，测试通过后再继续。这样更容易定位问题。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

中文数字读法纠正：Sambert文本归一化规则配置教程