FST ITN-ZH入门必看：高级设置使用技巧-开发者社区

FST ITN-ZH入门必看：高级设置使用技巧

1. 简介与背景

中文逆文本标准化（Inverse Text Normalization, ITN）是语音识别系统中不可或缺的一环。在ASR（自动语音识别）输出的自然语言文本中，常常包含大量口语化、非结构化的表达形式，例如“一百二十三”、“早上八点半”等。为了便于后续的信息提取、数据处理和结构化分析，需要将这些表达转换为标准格式，如“123”、“8:30a.m.”。

FST ITN-ZH 是基于有限状态转录机（Finite State Transducer, FST）实现的中文ITN工具，具备高精度、低延迟的特点。本文介绍的是由开发者“科哥”进行WebUI二次开发后的版本——FST ITN-ZH 中文逆文本标准化 WebUI版，极大提升了易用性和交互体验，适合工程落地与快速验证。

本技术博客聚焦于该系统的高级设置功能及其使用技巧，帮助用户深入理解参数配置逻辑，优化实际应用场景中的转换效果。

2. 核心功能回顾

2.1 基础转换能力

系统支持多种常见语义类别的标准化转换：

日期：二零零八年八月八日→2008年08月08日
时间：早上八点半→8:30a.m.
数字：一百二十三→123
货币：一点二五元→¥1.25
分数：五分之一→1/5
度量单位：二十五千克→25kg
数学符号：负二→-2
车牌号：京A一二三四五→京A12345

这些基础功能通过预训练的FST模型实现，覆盖了绝大多数日常使用场景。

2.2 使用方式概览

系统提供两种主要操作模式：

📝 文本转换：单条文本实时转换，适用于调试与小规模处理。
📦 批量转换：上传.txt文件，每行一条文本，支持大规模批量处理。

访问地址为：http://<服务器IP>:7860，启动命令如下：

/bin/bash /root/run.sh

界面简洁直观，支持一键示例填充、结果复制与文件保存，极大降低使用门槛。

3. 高级设置详解

高级设置模块允许用户根据具体业务需求调整转换行为，避免“一刀切”式处理带来的语义失真。以下是三个关键参数的详细解析。

3.1 转换独立数字

默认状态：开启
作用范围：控制是否将独立出现的中文数字转换为阿拉伯数字。
示例对比：
开启：幸运一百→幸运100
关闭：幸运一百→幸运一百

应用场景建议

场景	推荐设置	理由
数值提取（如报表、账单）	开启	提升数值可读性与机器解析效率
文学文本处理	关闭	保留原文语感，避免破坏修辞风格
口语转写后处理	按需开启	若需结构化统计，则开启；否则保持原意

提示：若输入文本中含有比喻性表达（如“百般滋味”），建议关闭此选项以防止误转换。

3.2 转换单个数字 (0–9)

默认状态：开启
作用范围：仅针对单个汉字数字（零、一、二…九）进行转换。
示例对比：
开启：零和九→0和9
关闭：零和九→零和九

技术细节说明

该选项不影响复合数字（如“十二”、“一百”），只作用于单独出现的个位数。其底层实现是在FST图中动态裁剪对应路径。

实际应用案例

假设输入文本为：“密码是三六七零”。

开启时输出：密码是3670
关闭时输出：密码是三六七零

对于验证码、密码、编号类场景，应确保开启此选项，以便完整数字化。

3.3 完全转换'万'

默认状态：关闭
作用范围：决定是否将“万”作为单位展开为完整数字。
示例对比：
开启：六百万→6000000
关闭：六百万→600万

数值表示差异分析

设置	输出	特点
开启	`6000000`	纯数字，利于计算
关闭	`600万`	更符合中文阅读习惯，节省字符

工程实践建议

金融数据分析系统：推荐开启，便于直接参与数值运算。
新闻摘要生成系统：推荐关闭，保持语言自然流畅。
跨语言对齐任务：建议开启，统一为国际通用数字格式。

可通过以下代码片段模拟该逻辑判断（Python伪代码）：

def convert_wan(text, fully_expand=False): import re pattern = r'(\d+)[万]' if fully_expand: return re.sub(pattern, lambda m: str(int(m.group(1)) * 10000), text) else: return re.sub(pattern, r'\g<1>万', text) # 示例调用 print(convert_wan("销售额达六百万", fully_expand=True)) # 销售额达6000000 print(convert_wan("销售额达六百万", fully_expand=False)) # 销售额达600万

4. 高级使用技巧与最佳实践

4.1 长文本多类型混合处理

系统支持在同一段文本中同时处理多种ITN类型，无需分拆。

输入示例：

这件事发生在二零一九年九月十二日的晚上，大概八点半左右，涉及金额为一万二千元。

输出结果：

这件事发生在2019年09月12日的晚上，大概8:30左右，涉及金额为12000元。

注意：当启用“完全转换'万'”时，“一万二千元”会变为“12000元”，否则为“1.2万元”。

4.2 批量处理性能优化建议

对于超过1000行的大文件，建议采取以下措施提升效率：

分批上传：每次不超过500行，减少内存压力。
关闭不必要的转换项：如无特殊需求，关闭“转换单个数字”可略微提速。
预处理清洗：去除空行、特殊符号或乱码字符，避免异常中断。

4.3 结果持久化与追溯管理

点击「保存到文件」按钮后，系统自动生成带时间戳的文件名，格式如下：

itn_output_20250405_143022.txt

文件存储路径通常位于/root/output/目录下，便于后期归档与审计。

4.4 参数组合策略推荐

根据不同业务场景，推荐以下参数组合：

场景	转换独立数字	转换单个数字	完全转换'万'
ASR后处理（通用）	✅ 开启	✅ 开启	❌ 关闭
数据挖掘/BI分析	✅ 开启	✅ 开启	✅ 开启
字幕生成	✅ 开启	❌ 关闭	❌ 关闭
法律文书处理	❌ 关闭	❌ 关闭	❌ 关闭
密码/编号提取	✅ 开启	✅ 开启	任意

5. 常见问题与解决方案

5.1 转换结果不准确

可能原因： - 输入文本含有方言或非标准表达 - 高级设置未匹配实际语境 - 模型缓存未刷新（首次加载需3–5秒）

解决方法： - 尝试调整高级设置 - 重启服务以清除缓存：执行/bin/bash /root/run.sh- 检查输入是否符合普通话规范

5.2 支持的数字变体

系统支持以下三种常见数字表达形式：

类型	示例
简体数字	一、二、三
大写数字	壹、贰、叁（常用于票据）
口语变体	幺（一）、两（二）

例如： -幺零零八六→10086-两点半→2:30

5.3 性能表现说明

首次转换延迟：约3–5秒（模型加载）
后续转换速度：平均 < 100ms/条（CPU环境）
批量处理吞吐量：约500条/分钟（取决于文本长度）

建议在高并发场景前预先触发一次转换，完成热启动。

6. 版权与开源声明

本项目由“科哥”完成WebUI二次开发，原始FST ITN-ZH核心基于Apache License 2.0协议开源。

重要提醒：
使用本系统时，请务必保留以下版权信息：

webUI二次开发 by 科哥 | 微信：312088415 承诺永远开源使用 但是需要保留本人版权信息！

未经授权删除或篡改版权信息的行为违反开源协议精神，不被允许。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

FST ITN-ZH入门必看：高级设置使用技巧