news 2026/4/2 12:10:38

带你快速入门HuggingFace!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
带你快速入门HuggingFace!

1 Hugging Face是什么?

如果你正在学习机器学习、大模型相关的内容,那么Hugging Face是你一定不要错过的社区。其实Hugging Face和Github挺相似的,相当于是机器学习界的github。

Hugging Face一开始只是一家纽约的聊天机器人服务商,本来是打算启动做聊天机器人的,在github上开源了Transformer库,结果有心栽花花不成,无心栽柳柳成荫,聊天机器人没做出个眉目,倒是transformer库在社区里迅速火爆起来。

下面我们来了解一下Hugging Face主要提供的服务。

2 预训练模型

Hugging Face提供了大量的预训练模型,帮助到哪怕是小白也可以快速上手大佬们训练出来的模型。

一开始主要涉及到的领域主要是NLP领域相关的任务,比如文本分类、情感分析、对话问答以及命名实体识别等等。

目前平台已经进一步壮大,只要你能想得到的厉害的模型,在上面基本上都可以找到。

Hugging Face大量的预训练模型使得业界的研究者们不用再去重复造轮子,可以更加关注自己的问题,模型的开源反过来进一步推动了平台的发展。

在Hugging Face上,Transformer库是其中最核心的项目,Transformer库提供了十分简洁的API接口,使得模型加载、使用和训练变得非常简单。

2.1 Transformer的安装

它的安装非常简单,我们在自己的虚拟环境中直接安装即可:

pip install transformers

2.2 使用Transformer库

假设我们的任务比较简单,一般可以直接调用API就可以完成。 比如实现一个翻译任务:

from transformers import pipeline en_fr_translator = pipeline("translation_en_to_fr") print(en_fr_translator("How old are you?"))

将以上代码执行,将会得到翻译:

[{'translation_text': ' quel âge êtes-vous?'}]

或者实现文本分类任务:

from transformers import pipeline classifier = pipeline("sentiment-analysis") result = classifier("I love using HuggingFace transformers!") print(result)

最终我们会得到结果:

[{'label': 'POSITIVE', 'score': 0.9998}]

表明这是一句积极的话。

或者实现文本生成的任务:

from transformers import pipeline generator = pipeline("text-generation", model="gpt2") result = generator("Once upon a time,") print(result[0]['generated_text'])

看的出来,其实还是有些在自说自话。

除了Transformer之外,我们也可以使用其他的模型,比如BERT:

from transformers import pipeline unmasker = pipeline('fill-mask', model='bert-base-chinese') unmasker("中国的首都是[MASK].")

运行结果:

因此说白了Hugging Face其实就是将一堆牛叉的模型库封装好,然后给你提供一份特定的使用说明书,你直接去用就行了,比如gpt、kimi、Qwen这些大模型我们没有必要去写代码,也没有必要去重新训练(也不是你我能训练得了的),直接按照说明书直接用就ok。

详细使用方法:

https://huggingface.co/docs/transformers/v4.21.0/en/main_classes/pipelines

我们通过实际的界面来看:

比如在以上Hugging face的界面给出了一堆大模型,就拿deepseek-ai/DeepSeek-OCR-2来说吧,我们点击去看:

好家伙,27W下载。

下面给出了环境配置和具体使用代码:

以上代码是使用了DeepSeek-OCR-2模型进行OCR(光学字符识别)任务,并将结果转换为markdown格式。

因此想体验哪个大模型,代码都不用你写了,别人都给你写好了。

3 数据集

Hugging Face提供了大量的数据集,包括音视频、计算机视觉、自然语言处理领域的任务。

首先需要安装好Datasets库,也是一行命令搞定:

pip install datasets

我们来看看数据集的界面:

总共81万个数据集。

3.1 数据集概览

一般在下载数据集之前,我们需要检查一下数据集信息,比如Rotten Tomatoes 电影评论数据集:

from datasets import load_dataset_builder ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes") ds_builder.info.description ds_builder.info.features

最终得到数据集的关键信息:

Rotten Tomatoes movie review dataset for binary sentiment classification...

  • 任务:二元情感分类(positive/negative)

  • 规模:10,662条评论(5,331条正面 + 5,331条负面)

  • 来源:Rotten Tomatoes 电影评论

  • 用途:常用于情感分析基准测试

3.2 数据集加载

此时我们对数据集满意的话,就可以使用load_dataset()加载它。

from datasets import load_dataset dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes", split="train")

3.3 数据集划分

使用函数 get_dataset_split_names() 可以列出数据集的分划名称。

from datasets import get_dataset_split_names get_dataset_split_names("cornell-movie-review-data/rotten_tomatoes")

最终结果为['train', 'validation', 'test']

我们也可以只操作Train:

from datasets import load_dataset dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes", split="train")

得到结果:

Dataset({ features: ['text', 'label'], num_rows: 8530 })

返回所有:

from datasets import load_dataset dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes")

得到结果:

DatasetDict({ train: Dataset({ features: ['text', 'label'], num_rows: 8530 }) validation: Dataset({ features: ['text', 'label'], num_rows: 1066 }) test: Dataset({ features: ['text', 'label'], num_rows: 1066 }) })

详细使用方法参考中文网站:

https://hugging-face.cn/docs/datasets/index

除此之外,Hugging Face还提供了Doc界面,包括一些参考文档,以及社区文章,类似于大家发发朋友圈:

一篇文章可能没有办法详细的说明Hugging Face的使用说明,但是作为快速入门,使用Model设Datasets已经够了,剩下的大家可以多多探索哦,用的越多越熟悉。

Hugging Face作为目前机器学习领域最大的开源平台,大家没事多逛逛,还是很有好处的。

欢迎大家关注我的gzh:阿龙AI日记

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/26 19:50:25

大数据领域分布式计算的分布式文件系统

大数据领域分布式计算的分布式文件系统:从快递仓库到数据海洋的管理魔法 关键词:分布式文件系统、数据分片、副本机制、元数据管理、HDFS、GFS、大数据存储 摘要:在大数据时代,单台电脑的“小仓库”早已装不下海量数据。本文将用“…

作者头像 李华
网站建设 2026/3/18 14:16:05

最强因果推断方法,必须是这个组合(超级学习者+双重稳健估计)

源自风暴统计网:一键统计分析与绘图的网站在观察性研究中,如何准确估计某种干预或暴露对结局的因果效应,一直是流行病学与数据科学中的核心难题。近年来,“超级学习者(Super Learner)”与“双重稳健估计器”…

作者头像 李华
网站建设 2026/4/1 1:32:17

计算机三端毕设实战-springboot基于B_S架构的积分制零食自选平台基于SpringBoot+Vue的积分制零食自选销售平台设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/1 11:37:21

‌2026科技薪资趋势报告:量子工程师年薪破600万领跑,基因测试员陷低谷,AI与安全测试成职业新风口

预言背后的行业变革信号 2026年初,科技行业薪资结构正经历颠覆性调整,引发“基因测试员薪资反超量子工程师”的热议。这一预言是否可信?本文结合权威数据,先剖析基因测试与量子工程领域的薪资现状,再解析软件测试公众…

作者头像 李华
网站建设 2026/4/2 11:56:35

Linux系统部署全攻略:DeepSeek-OCR-2生产环境配置

Linux系统部署全攻略:DeepSeek-OCR-2生产环境配置 1. 为什么需要专门的Linux生产环境部署 DeepSeek-OCR-2不是简单的命令行工具,而是一个需要协调GPU计算、内存管理、服务稳定性和安全隔离的完整AI服务系统。在开发机上跑通demo和在生产环境中每天处理…

作者头像 李华