FST ITN-ZH部署指南：企业级中文文本标准化系统搭建步骤-开发者社区

FST ITN-ZH部署指南：企业级中文文本标准化系统搭建步骤

1. 简介与背景

在自然语言处理（NLP）的实际应用中，语音识别输出或用户输入的中文文本往往包含大量非标准表达形式，如“一百二十三”、“早上八点半”等。这些表达虽然语义清晰，但不利于后续的数据分析、结构化存储和机器理解。中文逆文本标准化（Inverse Text Normalization, ITN）技术正是为了解决这一问题而生。

FST ITN-ZH 是一个基于有限状态转导器（Finite State Transducer, FST）架构的高性能中文ITN系统，能够将口语化、文字化的中文数字与时间表达自动转换为标准化格式。本文档聚焦于其WebUI二次开发版本的部署与使用实践，由开发者“科哥”完成界面优化与功能增强，适用于企业级文本预处理场景。

本指南将详细介绍系统的部署流程、核心功能使用方法及工程化落地建议，帮助技术团队快速集成并稳定运行该系统。

2. 系统部署与启动

2.1 部署环境要求

为确保 FST ITN-ZH WebUI 版本稳定运行，请确认服务器满足以下基础配置：

操作系统：Ubuntu 20.04 LTS 或 CentOS 7+
Python 版本：3.8 - 3.10
内存：≥ 4GB（推荐 8GB）
存储空间：≥ 5GB 可用空间
依赖库：gradio,openfst,pynini,jieba等已预装在镜像中

注意：若从源码部署，需手动安装 Pynini 并编译 OpenFST 支持库，过程较为复杂。推荐使用预置 Docker 镜像或云平台一键部署方案以提升效率。

2.2 启动与重启指令

系统提供自动化启动脚本，位于根目录下：

/bin/bash /root/run.sh

该脚本会依次执行以下操作：

检查 Python 环境与依赖项
加载 FST 模型文件（.far格式）
启动 Gradio Web 服务，默认监听端口7860
输出访问地址与状态日志

首次启动时，模型加载约需 3–5 秒；后续请求响应时间通常低于 100ms。

2.3 访问 WebUI 界面

部署成功后，在浏览器中访问：

http://<服务器IP>:7860

页面将展示如下主界面：

界面采用紫蓝渐变标题栏设计，简洁直观，支持移动端适配。

3. 核心功能详解

3.1 功能一：单文本转换

使用流程

打开 WebUI 页面
切换至「📝 文本转换」标签页
在左侧输入框填写待转换文本
点击「开始转换」按钮
查看右侧输出结果

示例演示

输入: 二零零八年八月八日早上八点半 输出: 2008年08月08日 8:30a.m.

此功能适用于实时交互式场景，如客服系统前端预处理、语音助手后端解析等。

3.2 功能二：批量文本转换

操作步骤

准备.txt文件，每行一条原始文本
进入「📦 批量转换」标签页
点击「上传文件」选择本地文件
点击「批量转换」触发处理任务
转换完成后点击「下载结果」获取标准化文本文件

输入文件示例

二零零八年八月八日 一百二十三 早上八点半 一点二五元 二十五千克 京A一二三四五

输出结果示例

2008年08月08日 123 8:30a.m. ¥1.25 25kg 京A12345

该功能特别适合日志清洗、历史数据归一化、大规模语音转写结果后处理等批处理任务。

4. 高级参数配置说明

系统提供三项关键参数供用户按需调整，位于「高级设置」区域。

4.1 转换独立数字

开启效果：幸运一百→幸运100
关闭效果：幸运一百→幸运一百

适用场景：当文本中存在“品牌名+数字”组合（如“百事可乐”），应关闭此项避免误转换。

4.2 转换单个数字 (0–9)

开启效果：零和九→0和9
关闭效果：零和九→零和九

建议：在数学公式、编号序列等上下文中开启，提升结构化程度。

4.3 完全转换'万'

开启效果：六百万→6000000
关闭效果：六百万→600万

工程建议：

数据统计分析场景建议开启，便于数值计算
用户展示场景建议关闭，保持可读性

提示：每次修改参数后需重新提交文本，系统将动态重建转换图。

5. 支持的标准化类型与规则

5.1 日期格式化

输入	输出
二零零八年八月八日	2008年08月08日
二零一九年九月十二日	2019年09月12日

支持年月日全称转换，兼容“二〇”与“零”的混合写法。

5.2 时间表达归一化

输入	输出
早上八点半	8:30a.m.
下午三点十五分	3:15p.m.

统一采用 12 小时制英文标识（a.m./p.m.），符合国际通用规范。

5.3 数字与货币转换

类型	输入 → 输出
整数	一百二十三 → 123
小数	一点二五 → 1.25
货币	一点二五元 → ¥1.25，一百美元 → $100

自动识别单位前缀并映射对应货币符号。

5.4 分数与度量单位

输入	输出
五分之一	1/5
三分之二	2/3
二十五千克	25kg
三十公里	30km

分数转换为斜杠表示法，度量单位缩写为国际标准符号。

5.5 数学与特殊表达

输入	输出
负二	-2
正五点五	+5.5
京A一二三四五	京A12345

支持正负号显式标注，车牌号中的汉字数字逐位替换为阿拉伯数字。

6. 实际应用技巧与最佳实践

6.1 长文本多类型混合处理

系统具备上下文感知能力，可在同一段落中准确识别多种实体类型：

输入: 这件事发生在二零一九年九月十二日的晚上，大概八点半左右，涉及金额为一万二千元。 输出: 这件事发生在2019年09月12日的晚上，大概8:30左右，涉及金额为12000元。

优势：无需分句预处理，直接整段输入即可获得完整标准化结果。

6.2 大规模数据批处理优化

对于超过万条记录的文本文件，建议采取以下策略：

分片上传：将大文件拆分为多个 ≤5000 行的小文件，并行提交
异步监控：通过日志观察转换进度，避免界面卡顿
结果合并：下载后使用脚本自动拼接所有输出文件

# 示例：合并多个结果文件 cat result_*.txt > final_output.txt

6.3 结果持久化与审计追踪

点击「保存到文件」按钮后，系统会在服务器生成带时间戳的文件，命名格式如下：

itn_result_20250405_143022.txt

便于后期追溯与版本管理，适用于合规性要求较高的金融、医疗等行业。

7. 常见问题与解决方案

7.1 转换结果不准确

可能原因：

输入文本含有方言或非常规表达
参数设置不当导致过度/欠转换

解决方法：

检查是否启用“转换单个数字”
尝试关闭“完全转换'万'”选项
提交反馈样本给开发者进行模型迭代

7.2 支持的语言变体

当前系统支持以下中文数字表达形式：

类型	示例
简体数字	一、二、三
大写数字	壹、贰、叁
口语变体	幺（一）、两（二）

暂不支持粤语、闽南语等地域性发音转写。

7.3 性能与延迟问题

首次转换慢：属正常现象，因需加载 FST 模型至内存
持续高延迟：检查 CPU 占用率，建议升级至 4 核以上实例
并发瓶颈：Gradio 默认单线程，高并发场景建议前置 Nginx + Gunicorn

8. 界面元素与操作说明

8.1 主要按钮功能对照表

按钮名称	功能描述
开始转换	触发当前输入文本的标准化处理
清空	清除输入与输出文本框内容
复制结果	将输出内容复制回输入框，便于连续编辑
保存到文件	将当前结果写入服务器临时文件
批量转换	处理上传的`.txt`文件

8.2 快速示例按钮

页面底部提供九类常用示例快捷填充按钮：

按钮	填充内容
`[日期]`	二零零八年八月八日
`[时间]`	早上八点半
`[数字]`	一百二十三
`[货币]`	一点二五元
`[分数]`	五分之一
`[度量]`	二十五千克
`[数学]`	负二
`[车牌]`	京A一二三四五
`[长文本]`	包含多个实体类型的复合句子

极大提升测试与调试效率。

9. 技术支持与版权说明

9.1 开发者信息

微信联系：312088415
开发者昵称：科哥
维护状态：持续更新中，欢迎提交 Issue 与需求建议

9.2 版权与使用许可

本项目基于Apache License 2.0开源协议发布，允许自由使用、修改与分发。

重要声明：

webUI二次开发 by 科哥 | 微信：312088415 承诺永远开源使用 但是需要保留本人版权信息！

10. 总结

FST ITN-ZH 中文逆文本标准化系统结合了有限状态机的高效性与 WebUI 的易用性，为企业级文本预处理提供了轻量且可靠的解决方案。通过本文的部署指导与使用详解，技术团队可快速完成本地化部署，并根据实际业务需求灵活调整转换策略。

无论是用于 ASR 输出纠错、智能客服语义理解，还是大数据文本清洗，该系统都能显著提升文本结构化水平，降低下游任务处理难度。未来可通过自定义 FST 规则扩展更多领域专用转换能力，进一步增强实用性。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。