news 2026/6/6 6:21:55

大模型面试必备07——HuggingFaceDatasets数据集组件使用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型面试必备07——HuggingFaceDatasets数据集组件使用

跟着视频学习:【【手把手带你实战HuggingFace Transformers-入门篇】基础组件之Datasets】 https://www.bilibili.com/video/BV1Ph4y1b76w/?share_source=copy_web&vd_source=9fe9e3d550891e4a38f66eead88c8b40

一、简介

datasets库是一个轻量级、易用的数据集加载工具,支持从本地文件Hugging Face Hub快速加载数据集,适用于机器学习、自然语言处理等任务。

  • 公开数据集地址: https://huggingface.co/datasets说明:Hugging Face Hub上托管了数万个公开数据集(如GLUE、SQuAD、COCO等),可直接通过该平台搜索和下载。

  • 文档地址: https://huggingface.co/docs/datasets/index说明:官方文档提供了完整的库使用方法,包括数据集加载、处理、分片、流式加载等高级功能。

二、基本使用

详细操作列表解析

  • 加载在线数据集

    1. 方法load_dataset

    2. 功能:从Hugging Face Hub或指定URL加载公开数据集(如gluesquad等)。

from datasets import load_dataset dataset = load_dataset("squad") # 加载SQuAD问答数据集
  • 加载数据集特定任务/子集

    1. 方法load_datasetnamesubset参数

    2. 场景:针对多任务数据集(如multi_nli包含多个任务分支)。glue包含很多任务分支

dataset = load_dataset("glue", name="mrpc") # 加载GLUE中的MRPC子任务
  • 按数据集划分加载

    1. 参数split

    2. 用途:直接加载训练集、验证集或测试集。

train_data = load_dataset("cifar10", split="train") test_data = load_dataset("cifar10", split="test")
  • 查看数据集内容

    1. 操作:索引(dataset[0])和切片(dataset[:5]

    2. 输出:快速预览数据字段(如文本、标签等)。

  • 数据集划分

    1. 方法train_test_split

    2. 功能:将单份数据拆分为训练集和测试集,支持自定义比例。

split_dataset = dataset.train_test_split(test_size=0.1)
  • 数据选取与过滤

    1. 方法select(按索引选取)和filter(按条件过滤)

filtered_data = dataset.filter(lambda x: x["label"] != 0) # 过滤标签为0的数据
  • 数据映射(转换)

    1. 方法map

    2. 用途:批量处理数据(如分词、数据增强)。

tokenized_data = dataset.map(lambda x: tokenizer(x["text"]), batched=True)
  • 保存与加载本地数据

    1. 方法save_to_disk()load_from_disk()

    2. 场景:缓存预处理后的数据集,避免重复计算。

dataset.save_to_disk("./processed_data") reloaded_data = load_from_disk("./processed_data")

三、加载本地数据集

四、总结:

使用load_dataset加载的数据集是一个dict

1、导入

Datasets = load_dataset方法的使用,参数有 name="teding"、split="train" 、切片方式加载split="train[:100]", 按照比例的方式切片 split="train[:50%]",其他的方式split=["train[:50%]","validation[:10%]"]

2、怎么取

单条通过dict来取就好:datasets["train"][0]

多条:datasets["train"][:2]

只想看title里面的 datasets["trian"]["title"][:5]

查看列名 datasets["trian"].column_names

查看对应的类型 datasets["trian"].features

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 3:29:03

Shutter Encoder视频处理工具:从入门到精通的完整指南

Shutter Encoder视频处理工具:从入门到精通的完整指南 【免费下载链接】shutter-encoder A professional video compression tool accessible to all, mostly based on FFmpeg. 项目地址: https://gitcode.com/gh_mirrors/sh/shutter-encoder 还在为视频格式…

作者头像 李华
网站建设 2026/5/28 13:12:47

番茄小说下载器完整指南:三步永久保存任何小说

番茄小说下载器完整指南:三步永久保存任何小说 【免费下载链接】fanqienovel-downloader 下载番茄小说 项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 番茄小说下载器是一款功能强大的开源工具,让您能够轻松下载并永久保存…

作者头像 李华
网站建设 2026/5/28 20:14:02

JoyCon手柄PC操控革命:跨平台控制方案深度解析

JoyCon手柄PC操控革命:跨平台控制方案深度解析 【免费下载链接】JoyCon-Driver A vJoy feeder for the Nintendo Switch JoyCons and Pro Controller 项目地址: https://gitcode.com/gh_mirrors/jo/JoyCon-Driver JoyCon-Driver项目彻底改变了Nintendo Switc…

作者头像 李华
网站建设 2026/6/6 4:12:17

Python微信好友自动化工具:批量添加好友的智能解决方案

Python微信好友自动化工具:批量添加好友的智能解决方案 【免费下载链接】auto_add_wechat_friends_py 微信添加好友 批量发送添加请求 脚本 python 项目地址: https://gitcode.com/gh_mirrors/au/auto_add_wechat_friends_py 在社交媒体运营、客户资源拓展等…

作者头像 李华
网站建设 2026/5/28 19:19:19

终极网页保存解决方案:一键离线完整网页

终极网页保存解决方案:一键离线完整网页 【免费下载链接】SingleFile Web Extension and CLI tool for saving a faithful copy of a complete web page in a single HTML file 项目地址: https://gitcode.com/gh_mirrors/si/SingleFile 在信息爆炸的时代&am…

作者头像 李华
网站建设 2026/5/30 19:33:44

全面掌握Vue3树形选择器:从入门到精通实战指南

全面掌握Vue3树形选择器:从入门到精通实战指南 【免费下载链接】vue3-treeselect tree select component for vue 3 (next) 项目地址: https://gitcode.com/gh_mirrors/vu/vue3-treeselect 在现代Web应用开发中,处理层级数据的可视化选择需求变得…

作者头像 李华