news 2026/6/3 23:14:33

知识图谱(七)之数据处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
知识图谱(七)之数据处理

一数据标注回顾

1.1整体思路

  1. 现在我们有txt和txtroiginal.

txt里面是标注数据,txtoriginal里面是原始数据,数据如下:

txt:

txtoriginal:

  1. 根据标注数据和标签类型构建字典

这是标签类型:

  1. 遍历原始数据,通过索引和标签的字典,给想引得位置打上标签.通过索引查字典,如果能查到则将对应的value作为标签,否则打上o的标签.

二代码实现

2.1使用路径拼接读取数据

import os import json cur = os.getcwd() print(cur) os.chdir('..') cur = os.getcwd() print(f'修改以后的目录{cur}') path=os.path.join(cur,'data/labels.json') print(f'拼接后的路径{path}') labels=json.load(open(path,'r',encoding='utf-8')) print(f'labels->{labels}')

2.1.1补充os.getcwd()方法:这个方法的缺陷是其他包在导入使用这个方法的包后,获取到的是其他包的路径,会导致读取数据出现错误

报错的原因是路径输出的是当前文件夹的路径,因为输出的不是导入的包的路径,所以找不到相关文件.

2.2.2使用os.path.abspath()的方法可以避免这个问题

import os import json # 如何设计,让这个代码在调用时,相对路径不随着调用位置变化而变化 file_path = os.path.abspath(__file__) print(f'file_path-->{file_path}') base_dir = os.path.dirname(file_path) print(f'base_dir-->{base_dir}') # 路径拼接 path = os.path.join(base_dir, '../data/labels.json') print(f'拼接之后的路径2-->{path}') # 读取json文件 labels = json.load(open(path, 'r', encoding='utf-8')) print(f'labels-->{labels}')

拼接好路径以后,使用os.walk()读取路径下的文件

这个方法返回的是可迭代对象,用循环的方法遍历,分别返回的是:文件夹路径,文件夹列表,文件列表

results = os.walk(os.path.join(base_dir, '../data_origin')) print(f'results-->{results}') for dir_path, dirs, files in results: # 路径、文件夹(列表)、文件(列表) print('*'*50) print(f'dir_path-->{dir_path}') print(f'dirs-->{dirs}') print(f'files-->{files}')

2.2数据处理

先获取实体的英文名,然后用B-英文名或者I-英文名拼接,,得到每实体里面每个字的标签.

遍历原始文本,通过标签数据的索引给原始文本里面的字打标签,如果没有这个字的标签,就打O

2.2.1拼接的方法

拼接结果:

2.2.2遍历原始文本,给实体打标签

找到索引提取value,找不到索引打O

2.2.3最终结果

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/2 21:41:25

语音AI开发难题?Emotion2Vec+云端环境一招解决

语音AI开发难题?Emotion2Vec云端环境一招解决 你是不是也遇到过这种情况:作为远程工作者,刚接到一个国际协作项目,需要快速搭建语音情感识别的开发环境,结果发现本地网络卡得要命,模型动辄几个GB&#xff…

作者头像 李华
网站建设 2026/6/1 10:01:30

Keil编译错误c9511e的原因与修复方法

Keil编译报错error: c9511e: unable to determine the current toolkit?别慌,一文彻底解决你有没有遇到过这样的场景:打开Keil项目,信心满满地点下“Rebuild”,结果编译器还没跑几秒,就弹出一行红色错误&am…

作者头像 李华
网站建设 2026/5/28 20:11:47

如何实现低延迟翻译?HY-MT1.5-1.8B vllm调优指南

如何实现低延迟翻译?HY-MT1.5-1.8B vllm调优指南 1. 引言:低延迟翻译的工程挑战与解决方案 在实时通信、跨语言交互和边缘计算场景中,低延迟翻译已成为关键需求。传统大模型虽然翻译质量高,但推理耗时长、资源消耗大&#xff0c…

作者头像 李华
网站建设 2026/5/30 5:33:20

打包下载ZIP文件失败?unet批量导出问题排查实战

打包下载ZIP文件失败?unet批量导出问题排查实战 1. 问题背景与场景描述 在基于 UNET 架构的人像卡通化项目 cv_unet_person-image-cartoon 中,用户通过 WebUI 界面可实现单张或批量图片的风格迁移处理。该项目由开发者“科哥”构建并部署,依…

作者头像 李华
网站建设 2026/5/28 20:11:48

Z-Image-ComfyUI支持PNG元数据注入,合规又方便

Z-Image-ComfyUI支持PNG元数据注入,合规又方便 1. 背景与核心价值 在生成式人工智能(AIGC)快速发展的今天,AI图像生成技术已广泛应用于设计、广告、教育等多个领域。然而,随着内容产出量的激增,一个关键问…

作者头像 李华
网站建设 2026/5/28 13:51:53

IndexTTS-2老年人应用:大字体界面+简易语音操作

IndexTTS-2老年人应用:大字体界面简易语音操作 你有没有想过,家里的老人其实也想用智能手机点外卖、查天气、听新闻?但他们常常因为字太小、按钮太多、操作复杂而放弃。作为适老化APP开发团队的一员,我们面临的最大挑战不是技术本…

作者头像 李华