SiameseUIE实操手册：修改test.py添加自定义测试文本全流程-开发者社区

SiameseUIE实操手册：修改test.py添加自定义测试文本全流程

1. 为什么你需要这份实操手册

你刚拿到一个预装好的SiameseUIE模型镜像，SSH登录后执行python test.py，5个内置例子跑得飞快，结果也干净利落——人物、地点分得清清楚楚，没有“杜甫在成”这种半截子错误。但下一秒你就卡住了：我想测自己手头的100条新闻稿，怎么加进去？
不是重写整个推理流程，也不是折腾环境配置，更不是去翻论文改模型结构。你只需要动test.py里一个列表、两行代码、保存再运行——就这么简单。

本手册不讲模型原理，不聊Siamese架构有多精巧，也不分析UIE（Unified Information Extraction）的理论边界。它只聚焦一件事：在受限云实例上，用最轻量、最安全的方式，把你的文本塞进已部署好的模型里，立刻看到结果。
系统盘≤50G？没问题。PyTorch版本锁死？不碰它。重启后环境归零？镜像已为你兜底。你要做的，只是打开一个Python文件，找到那个叫test_examples的列表，往里加几行字典。

2. 动手前必知的3个关键事实

2.1 镜像不是“半成品”，而是“即插即用”的完整工作流

这个镜像不是让你从pip install开始的开发环境，而是一个封好壳的推理盒子。所有依赖（包括魔改版的transformers和适配torch28的底层逻辑）已静态编译进test.py，连vocab.txt和pytorch_model.bin都放在同一目录下——你不需要git clone、不用wget权重、不需conda install任何包。
这意味着：你对test.py的每一次修改，都是在“使用”模型，而不是“搭建”模型。

2.2`test.py`是唯一需要你动手的文件，且修改极低风险

看一眼目录结构就知道：vocab.txt、config.json、pytorch_model.bin这三样是模型的“心脏”“大脑”“肌肉”，删了就废；而test.py是它的“遥控器”。手册里教你的所有操作，只涉及遥控器上的两个按钮：

新增测试文本→ 往test_examples列表里append字典；
切换抽取逻辑→ 把custom_entities参数从字典改成None。
没有导入新库、不改模型类、不碰forward()函数——你甚至不用懂PyTorch，只要会写JSON格式的Python字典就行。

2.3 “无冗余抽取”不是玄学，是你能直接控制的开关

内置例子输出里，“李白，杜甫，王维”中间是顿号不是逗号，“碎叶城，成都，终南山”没带“市/省”后缀——这不是模型“猜”出来的，而是test.py里硬编码的规则：

它只返回你明确指定的实体（custom_entities里列出来的）；
它自动过滤掉子串匹配（比如“杜甫草堂”不会拆出“杜甫”和“草堂”）；
它严格按schema里定义的类别分组，不混搭。
所以，你加的每一条自定义文本，效果完全可控：你写什么实体，它就抽什么；你不写，它就不抽。

3. 从零开始：添加第一条自定义测试文本

3.1 找到并打开`test.py`

登录云实例后，按README里的路径进入模型目录：

cd .. cd nlp_structbert_siamese-uie_chinese-base

用你喜欢的编辑器打开test.py（新手推荐nano test.py，退出按Ctrl+X→Y→回车）：

nano test.py

3.2 定位`test_examples`列表

在文件里搜索关键词test_examples（Ctrl+W在nano中），你会看到类似这样的代码块：

test_examples = [ { "name": "例子1：历史人物+多地点", "text": "李白出生在碎叶城，杜甫在成都修建了杜甫草堂，王维隐居在终南山。", "schema": {"人物": None, "地点": None}, "custom_entities": {"人物": ["李白", "杜甫", "王维"], "地点": ["碎叶城", "成都", "终南山"]} }, # 后续4个例子... ]

这就是全部5个内置测试的“清单”。你的任务，就是在这个方括号[ ]里，追加一个新的字典。

3.3 写一条符合规范的自定义字典

假设你要测试的文本是：“张桂梅创办了华坪女子高级中学，学校位于云南省丽江市华坪县。”
你需要填的4个字段，一个都不能少：

"name"：给这条测试起个名字，方便后续排查（建议含场景关键词）；
"text"：粘贴原始文本，不要删标点、不要改字；
"schema"：固定写{"人物": None, "地点": None}，这是模型识别类别的指令；
"custom_entities"：列出你希望模型精准匹配的所有人物和地点（注意：必须是文本中真实出现的完整词！）。

完整字典如下（复制粘贴即可）：

{ "name": "自定义例子：教育人物+县级地点", "text": "张桂梅创办了华坪女子高级中学，学校位于云南省丽江市华坪县。", "schema": {"人物": None, "地点": None}, "custom_entities": {"人物": ["张桂梅"], "地点": ["云南省", "丽江市", "华坪县"]} }

注意细节：

字典末尾不要加逗号（否则Python报错）；
"地点"里填的是“云南省”“丽江市”“华坪县”，而不是“华坪女子高级中学”——后者是机构名，不在当前schema支持范围内；
如果某条文本里你不确定有没有人物，"人物"列表可以写空："人物": []。

3.4 保存文件并运行测试

在nano中按Ctrl+O保存，回车确认文件名，再按Ctrl+X退出。
回到终端，直接运行：

python test.py

你会看到输出末尾多了一段：

========== 自定义例子：教育人物+县级地点 ========== 文本：张桂梅创办了华坪女子高级中学，学校位于云南省丽江市华坪县。 抽取结果： - 人物：张桂梅 - 地点：云南省，丽江市，华坪县 ----------------------------------------

成功！你新加的文本已被模型处理，结果干净、准确、无冗余。

4. 进阶技巧：批量添加与常见避坑指南

4.1 一次加10条？用缩进保持可读性

别把10个字典挤在一行里。按Python风格缩进，让结构一目了然：

test_examples = [ # 原有5个例子（保持不动）... { "name": "自定义1：抗疫医生", "text": "钟南山院士奔赴武汉一线指导抗疫工作。", "schema": {"人物": None, "地点": None}, "custom_entities": {"人物": ["钟南山"], "地点": ["武汉"]} }, { "name": "自定义2：航天发射", "text": "神舟十六号飞船在酒泉卫星发射中心成功发射。", "schema": {"人物": None, "地点": None}, "custom_entities": {"人物": ["神舟十六号"], "地点": ["酒泉卫星发射中心"]} }, # ...更多自定义条目 ]

这样即使加到50条，也能快速定位、删除或注释某一条。

4.2 遇到“抽取结果为空”？先检查这3处

现象	最可能原因	快速验证方法
抽取结果里“人物：”后面是空的	`custom_entities["人物"]`列表里写的词，在`text`里根本没出现（比如写了“钟南山”，但文本是“钟院士”）	用`Ctrl+F`在文本里搜一遍你写的实体
地点只抽到“北京”，漏了“北京市”	`custom_entities["地点"]`里填的是“北京”，但文本里写的是“北京市”（或反之）	严格比对文本原词，一个字都不能差
运行报`KeyError: '人物'`	复制字典时漏了`"人物": []`这一行，或者`"custom_entities"`键名拼错了	检查字典最外层是否有`"custom_entities": { ... }`

4.3 想让模型“自由发挥”？一键切换通用模式

如果不想手动列实体，想让模型自动抓取所有2字人名、带“市/县/省”的地点，只需两步：

在test.py里找到调用extract_pure_entities函数的地方（通常在for example in test_examples:循环内部）；
把这一行：
```
extract_results = extract_pure_entities(text=..., schema=..., custom_entities=example["custom_entities"])
```
改成：
```
extract_results = extract_pure_entities(text=..., schema=..., custom_entities=None)
```
注意：custom_entities=None，不是"None"字符串，也不是{}空字典。
保存后再次运行python test.py，模型就会启用内置正则规则——但要注意：此时结果可能有冗余（如“杜甫草堂”被拆成“杜甫”），如需精准控制，请切回custom_entities模式。

5. 超实用附录：5种高频场景的模板字典

不用每次从零构思，直接复制修改以下模板，替换引号里的内容即可：

5.1 新闻稿场景（含时间+机构）

{ "name": "自定义：财经新闻", "text": "2023年10月，阿里巴巴集团宣布将在杭州市建设新的人工智能研发中心。", "schema": {"人物": None, "地点": None}, "custom_entities": {"人物": [], "地点": ["杭州市"]} }

5.2 古籍摘录场景（生僻地名）

{ "name": "自定义：古籍《水经注》", "text": "河水又东，径高平县故城北。", "schema": {"人物": None, "地点": None}, "custom_entities": {"人物": [], "地点": ["高平县"]} }

5.3 企业简介场景（避免机构名干扰）

{ "name": "自定义：科技公司介绍", "text": "华为技术有限公司总部位于广东省深圳市。", "schema": {"人物": None, "地点": None}, "custom_entities": {"人物": [], "地点": ["广东省", "深圳市"]} }

5.4 多人物对话场景（严格区分说话人）

{ "name": "自定义：客服对话记录", "text": "用户A：我的订单在北京发货。客服B：已为您查询到物流信息。", "schema": {"人物": None, "地点": None}, "custom_entities": {"人物": ["用户A", "客服B"], "地点": ["北京"]} }

5.5 无实体验证场景（测试鲁棒性）

{ "name": "自定义：纯技术文档", "text": "该模型基于StructBERT架构，采用Siamese网络结构进行联合抽取。", "schema": {"人物": None, "地点": None}, "custom_entities": {"人物": [], "地点": []} }

6. 总结：你已经掌握了SiameseUIE最核心的落地能力

回顾一下，你刚刚完成的操作，看似只是改了一个Python列表，实则打通了从“模型能力”到“业务价值”的最后一公里：

你绕过了所有环境陷阱：没碰PyTorch版本，没装新包，没下载权重；
你获得了完全可控的输出：加什么实体，抽什么结果，不靠模型“猜”，全由你定义；
你建立了可复用的工作流：下次测100条新闻，只需把模板字典批量生成，粘贴进test_examples，python test.py一跑全出结果。

这正是受限云环境的价值所在——它不给你无限自由，但把最麻烦的底层适配全做好了，只留给你一个清晰、安全、高效的接口。而test.py，就是你握住这个接口的手。

现在，合上手册，打开你的test.py，把第一条真正属于你业务的测试文本加进去吧。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

SiameseUIE实操手册：修改test.py添加自定义测试文本全流程