news 2026/5/14 12:54:07

数据集清洗

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据集清洗

基于YAML(自动化)

python版本>3.10

1.创建虚拟环境

conda create -n datawash python=3.10 -y conda activate datawash

2.安装 Data-Juicer

pip install py-data-juicer[sci]

安装验证:dj-process --help

3.任务配置编写Recipe(数据配方)

3.1准备数据

准备一个.jsonl格式的文件

每段是text格式的json对象

{"text": "这是一段高质量的文本。"} {"text": "这是另一段文本,包含一些垃圾信息... http://example.com/spam"}

3.2创建yaml文件

# --- 全局参数 --- project_name: 'my_first_cleaning_task' # 项目名称 dataset_path: './my_raw_data.jsonl' # 输入数据集路径 export_path: './clean_data.jsonl' # 清洗后输出路径 np: 4 # 使用的进程数 (加速处理) # --- 数据处理流程 (Process) --- # 在这里,按顺序列出你想执行的所有操作算子 (Operator) process: # 1. 清理与规范化 (Mapper) - clean_email_mapper: # 清理邮箱地址 - clean_links_mapper: # 清理超链接 - fix_unicode_mapper: # 修复Unicode乱码 - punctuation_normalization_mapper: # 标点符号规范化 - whitespace_normalization_mapper: # 空格规范化 # 2. 启发式过滤 (Filter) - words_num_filter: # 过滤文本词数不在指定范围内的 lang: 'en' # 指定语言(中文用 'zh') min_num: 50 # 最小词数 max_num: 100000 # 最大词数 - character_repetition_filter: # 过滤字符大量重复的文本 rep_len: 10 max_ratio: 0.2 - special_characters_filter: # 过滤特殊字符占比过高的 max_ratio: 0.3 # 3. 质量过滤 (基于模型) - perplexity_filter: # 基于困惑度(PPL)过滤低质文本 lang: 'en' # 注意语言设定 max_ppl: 1500 # 最大困惑度阈值 # 4. 文档去重 (Deduplicator) - document_simhash_deduplicator: # 基于SimHash的模糊去重 tokenization: 'space' # 分词方式 window_size: 6 hamming_distance: 4

3.3执行

dj-process --config .yaml文件

3.4成品数据位置

./clean_data.jsonl

4.数据分析与可视化

4.1成品数据统计报告

dj-analyze --config .yaml文件

4.2可视化分析(内置工具)

streamlit run app.py
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/14 12:53:26

华为设备Traffic Policy配置避坑指南:ACL规则顺序与Classifier匹配逻辑详解

华为设备Traffic Policy配置避坑指南:ACL规则顺序与Classifier匹配逻辑详解 在网络工程师的日常工作中,华为设备的QoS策略配置是一个既基础又复杂的话题。特别是当我们需要对特定流量进行精细控制时,Traffic Policy的正确配置就显得尤为重要。…

作者头像 李华
网站建设 2026/5/14 12:50:11

在模型广场对比不同模型特性,为你的应用找到最佳性价比选择

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在模型广场对比不同模型特性,为你的应用找到最佳性价比选择 为应用选择合适的大模型,需要在性能、功能和成…

作者头像 李华
网站建设 2026/5/14 12:48:25

开关电源选型保姆级指南:从LRS-200-24到NDR-480-24,手把手教你算功率、看效率、避高温降额

开关电源选型实战手册:从基础参数到工业场景避坑指南 工业电源选型的三大认知误区 第一次为自动化产线选配开关电源时,我犯了个典型错误——直接按照设备铭牌功率总和选择了LRS-200-24型号。结果设备联调当天,传送带电机频繁重启,…

作者头像 李华
网站建设 2026/5/14 12:47:13

从零搭建AI向量检索服务:Faiss + PyTorch环境配置全流程(附避坑点)

从零搭建AI向量检索服务:Faiss PyTorch环境配置全流程(附避坑点) 在AI应用开发中,向量检索已成为推荐系统、图像搜索等场景的核心组件。Facebook开源的Faiss库凭借其高效的相似性搜索能力,成为众多开发者的首选工具。…

作者头像 李华
网站建设 2026/5/14 12:46:19

基于RK3568核心板的智慧门禁方案:硬件选型、软件架构与实战部署

1. 项目概述:当智慧门禁遇上国产高性能核心板最近在做一个智慧门禁的项目,客户要求既要能做人脸识别、刷卡、密码这些常规操作,还得支持远程管理、访客预约,甚至要能对接楼宇对讲和梯控系统。选型的时候,我们团队在处理…

作者头像 李华