Elasticsearch：在分析过程中对数字进行标准化-开发者社区

作者：来自 Elastic spinscale

分析链中的数字标准化

在全文搜索中，一个常见问题是如何处理数字。最基本的方法是将它们完全提取出来，并在范围内作为真实数字进行查询，但在很多情况下，这需要大量分析，而且数字往往只是全文搜索的一部分，比如 iphone 17 或 bed 1.4 m。

问题是，当用户输入搜索时，他们对数字的理解可能与你不同。

1.4 m 和 1,4 m 是相同的吗？事实是，美国和欧洲在大数和分数的分隔符上使用不同的字符。除此之外，用户在搜索引擎中输入数字时，点和逗号常常可以互换使用，尤其是数字较小时。

007 和 7 是相同的吗？取决于你的使用场景。
1.4 m 和 1.40 m 是相同的吗？这取决……你明白我的意思。

那么我们能做些什么来稍微标准化数字呢？

为了这个示例，让我们使用 keep_types token filter，仅保留数字，丢弃分析链中的其他内容：

POST _analyze { "text": "makita führungsschiene 1.4 m, 1,4 m 1,40 1.40", "tokenizer": "standard", "filter": [ { "type": "keep_types", "types": [ "<NUM>" ] } ] }

这只会返回看起来像数字的 token，无论它们是否包含点或逗号，但会排除其他内容，例如普通单词，比如 makita。

接下来，我们先统一所有带点或逗号的数字。

POST _analyze { "text": "makita führungsschiene 1.4 m, 1,4 m 1,40 1.40", "tokenizer": "standard", "filter": [ { "type": "keep_types", "types": [ "<NUM>" ] }, { "type": "pattern_replace", "pattern": "(\\d+)\\,(\\d+)", "replacement" : "$1.$2" } ] }

这只返回 1.4 或 1.40 —— 很好！所以无论索引了什么，或者用户搜索什么，现在我们总是假设数字使用点，借助 pattern_replace token filter 实现。

如果不关心位置，可以在最后使用 unique token filter —— 当然也可以省略 norms 以减少索引大小。

你也可以去掉点，只保留数字本身，但这可能导致搜索 1.7 时返回 iphone 17 —— 同样，这取决于是否希望这样。

接下来，我们去掉前导零：

POST _analyze { "text": "test 007 7 700 000 0", "tokenizer": "standard", "filter": [ { "type": "keep_types", "types": [ "<NUM>" ] }, { "type": "pattern_replace", "pattern": "^0+(\\d+)", "replacement" : "$1" } ] }

现在，007 或 000 会被简化为单个数字字符。虽然这可能有用，但请注意，当用户搜索 007 作为零件编号时，可能会返回包含 7 的所有结果，从而增加歧义。

接下来，真正有趣的部分来了：去掉尾随零，但不要弄得太复杂。像往常一样，如果你手头只有正则表达式，你可能会想出一个复杂的正则，但也许预处理可能已经是个好主意。

POST _analyze { "text": "0.100 0.1000 0.101 100 100.0 100.00 100.001", "tokenizer": "standard", "filter": [ { "type": "keep_types", "types": [ "<NUM>" ] }, { "type": "pattern_replace", "pattern": "^(\\d+)\\.([0-9])(0+)$", "replacement" : "$1.$2" } ] }

这会返回（至少如果你在请求中添加 filter_path=**.token）：

{ "tokens": [ { "token": "0.1" }, { "token": "0.1" }, { "token": "0.101" }, { "token": "100" }, { "token": "100.0" }, { "token": "100.0" }, { "token": "100.001" } ] }

你已经可以看到这里还有一些可以改进的地方。100 和 100.0 之间真的有区别吗？也许在这种情况下可以完全去掉尾随的 .0。我相信你会为此想出一个很棒的正则表达式。

让我们把所有步骤整合起来：

POST _analyze { "text": "makita führungsschiene 1.4 m, 1,4 m 1,40 1.40 1.0 1.00 0.100 0.1000 0.101 0.1010 100 100.0 100.00 100.001 0.100 007 700", "tokenizer": "standard", "filter": [ { "type": "keep_types", "types": [ "<NUM>" ] }, { "type": "pattern_replace", "pattern": "(\\d+)\\,(\\d+)", "replacement" : "$1.$2" }, { "type": "pattern_replace", "pattern": "^0+(\\d+)", "replacement" : "$1" }, { "type": "pattern_replace", "pattern": "^(\\d+)\\.([0-9])(0+)$", "replacement" : "$1.$2" } ] }

在真实的分析链中，你可能会去掉 keep_types filter，并且在适用时尝试将正则表达式组合以提高速度，但这大概是一个不错的起点。

仔细看上面的输出，你会注意到还有一个小问题：0.1010 没有被简化为 0.101。因此，你可能需要对正则表达式做进一步修正 —— 记住，如果增加一个 token filter 有助于可读性，也是可以的 😊

还有一个实现提示。如果你想确保 pattern replace filter 只针对数字运行，可以使用 condition token filter。

原文：https://discuss.elastic.co/t/dec-2nd-2025-en-normalizing-numbers-during-analysis/383512

EmotiVoice在有声读物中的应用：解放人力，提升制作效率

EmotiVoice在有声读物中的应用：解放人力，提升制作效率在音频内容消费日益主流化的今天，越来越多的读者不再满足于“看”书，而是选择“听”书。通勤路上、睡前时光、家务间隙——人们希望随时随地沉浸在故事中。然而，一…

李华

EmotiVoice语音风格迁移实验成果展示

EmotiVoice语音风格迁移实验成果展示在数字内容爆炸式增长的今天，用户早已不再满足于“能听”的语音合成——他们想要的是“像人说”的声音：有温度、带情绪、能共鸣。传统的TTS系统虽然实现了从文字到语音的基本转换，但在真实感与表现力上始…

李华

Day 37

# DAY 37 早停策略和模型权重的保存知识点回顾：1. 过拟合的判断：测试集和训练集同步打印指标2. 模型的保存和加载 a. 仅保存权重 b. 保存权重和模型 c. 保存全部信息 checkpoint，还包含训练状态3. 早停策略作业：对信贷数据集…

李华

17、Mac OS X 开发工具与编译指南

Mac OS X 开发工具与编译指南 1. 开发工具概述在 Mac OS X 系统中，有一系列强大的开发工具可供使用，这些工具大多位于 /Developer/Applications 目录下。以下是一些主要工具的介绍： - Instruments ：这是一个基于时间线的图形用户界面（GUI）性能可视化工具，它构建…

李华

大数据领域数据仓库的元数据资产盘点

大数据领域数据仓库的元数据资产盘点：给数字世界做一次"全身检查"关键词：元数据、数据仓库、资产盘点、数据治理、元数据管理摘要：在大数据时代，企业的数据仓库就像一个装满"数字宝藏"的巨型仓库，…

李华

BeeWorks：为政企沟通筑造稳定、安全、高效的协作基石

当一家大型央企的技术图纸与生产指令在全新的内部协作平台上瞬间同步到数千个终端时，信息安全负责人首次感受到了技术带来的从容。打开手机、电脑、平板，所有设备上的消息实时同步；在隔绝外网的涉密环境中，高清视频会议与大型文件…

李华