【收藏学习】BERT模型全解析：从原理到应用的NLP革命-开发者社区

BERT是谷歌提出的基于Transformer架构的双向编码表示模型，通过预训练和微调两个阶段改变NLP领域。其核心创新在于使用双向上下文理解词语含义，通过Masked Language Model(MLM)和Next Sentence Prediction(NSP)两种策略进行预训练，使模型能够捕捉完整的语言语境。BERT无需为每个NLP任务重新设计架构，只需微调即可在各种任务中取得优异表现，显著提升了计算机理解和处理人类语言的能力。

1、什么是Bert ?

BERT 是一个开源机器学习框架，用于更好地理解自然语言。BERT 是Bidirectional Encoder Representation from Transformer的缩写，顾名思义，BERT基于 Transformer 架构，在训练阶段使用编码器表示法从标记的左右两侧学习上下文信息。这就是它被称为双向编码表示的原因。

我们不妨来看个例子：

从上面的例子中我们可以看出，单词bank在两个句子中的含义是不同的。因此，如果模型不考虑双向的语境，那么至少会在其中一个句子中出错。

2、为什么需要BERT ？

在 BERT 之前，模型的主要局限性在于它们都是单向的，而BRET是双向语境。在这里，双向性指的是输入序列中的每个Token都可以从前面和后面的Token（分别称为左语境和右语境）中获得语义信息。

专业术语是，我们说注意力机制可以关注每个Token的前面和后面的标记。细分起来，我们可以回想一下，BERT 只对输入序列中的单词进行预测，而不会像 GPT 那样生成新的序列。因此，当 BERT 预测输入序列中的某个单词时，它可以结合周围所有单词的上下文线索。这就提供了两个方向的上下文语境，帮助 BERT 做出更明智的预测。

这与 GPT 等纯解码器模型形成鲜明对比，后者的目标是一次预测一个新词，以生成新的输出序列。每个预测的单词只能利用前面的单词（左语境）提供的语境，因为后面的单词（右语境）尚未生成。因此，这些模型被称为单向模型。

上图显示了使用双向上下文语境的典型 BERT 任务和使用单向上下文语境的典型 GPT 任务的示例。对于 BERT，这里的任务是预测 [MASK] 所指示的屏蔽词。由于这个单词的左右两边都有单词，因此两边的单词都可以用来提供上下文。如果作为人类，你在阅读这个句子时只有左右两边的单向上下文，那么你可能很难预测出这个屏蔽词。然而，有了双向上下文，你就更有可能猜出屏蔽词是 fishing。

对于 GPT，目标是执行经典的 NTP 任务。在这种情况下，目标是根据输入序列提供的上下文和输出中已生成的单词生成一个新序列。鉴于输入序列指示模型写一首诗，而目前生成的单词都是 Upon a，您可能会预测下一个单词是 river，然后是 bank。对于许多潜在的候选词，GPT（作为语言模型）会计算其词汇表中每个词出现在下一个词的可能性，并根据训练数据选择一个最有可能出现的词。

3、BERT模型结构

BERT架构建立在Transformer架构之上。BERT 模型使用的是Transformer模块中的编码器结构。在初始版本中，它有两个变体：

BERT Base: 12层，12个注意力头，110M参数
BERT Large：24层，16个注意力头，340M参数

4、嵌入层

我们无法直接向模型提供单词，我们首先要将单词转换成向量，这个过程称为嵌入。在 BERT 中，将单词转换为数字表示向量的嵌入有以下三种类型：

Position Embeddings:与 BERT或Transformer一样，我们不按顺序传递数据，因此我们使用位置嵌入来表示每个标记在序列中的位置。这与我们在Transformer论文中看到的一样。
Segment Embedding：由于 BERT 还将句子对作为各种任务的输入，因此每个标记都会添加句段嵌入，以表明某标记属于句子 A 还是句子 B。
Token Embedding：第一句开头的输入词Token中添加一个 [CLS] 标记，并在每个句子的末尾插入一个 [SEP] 标记。

如上图所示，对于给定的标记，其输入表示是通过将相应的位置嵌入、句段嵌入和标记嵌入相加来构建的。

5、预训练

BERT 的训练分为两个阶段：预训练和微调。预训练包括使用 MLM 和 NSP 目标损失，在大量无标签文本数据的语料库上进行训练，使 BERT 能够学习上下文化的单词表征。

然后，微调会使用特定任务的标注数据，优化特定任务的训练目标，使预训练的 BERT 模型适应特定的下游任务。预训练和微调的结合使 BERT 能够出色地理解和解决各种 NLP 问题。

在训练语言模型时，确定训练目标是一个难题。为了克服这一挑战，BERT 采用了两种训练策略：MaskedLM (MLM) 和 Next Sentence Prediction (NSP)。

Masked LM (MLM)

这是一种用于无监督训练模型技术，MLM 将一定比例的输入标记替换为 [MASK] 标记，然后模型会尝试根据序列中单词提供的上下文来预测屏蔽标记的原始值，如下图所示：

其中训练MLM的核心点可总结为：

BERT 损失函数只考虑屏蔽值的预测，而忽略非屏蔽词。
与标准语言模型训练相比，由于 MLM 只对每批中 15%的标记进行预测，因此需要更多的预训练步骤才能收敛。
从编码器获得输出后，它会乘以嵌入矩阵，将其转换为词汇维度，并使用 Softmax 计算每个词的概率。
在论文中，作者在 80% 的情况下用 [MASK] 替换单词。在 10% 的情况下，单词会被随机替换，而在另外 10% 的情况下，原始单词保持不变。这种方法可以确保编码器无法确定哪个单词需要预测，哪个单词已被随机替换。因此，每个标记的分布式上下文表征得以保持。
Next Sentence Prediction (NSP)

在 MLM的训练过程中，句子之间的关系在问题解答等任务中也起着重要作用，因此我们使用 NSP 来训练能理解这种关系的模型。

在训练阶段，我们选择一对句子作为输入，然后让模型学习预测这对句子中的第二个句子是否是原始文档中的后续句子。

在训练过程中，我们会选择这样的输入：50% 的输入是一对句子，即原始文档中标注为 "isNext "的后续句子，而另外 50%的输入则是语料库中标注为 "Not Next "的随机句子。这就转化成了一个有两个标签的分类问题。

我们只需计算输入序列，然后通过一个基于transformer的模型，使用一个简单的分类层将 [CLS] 标记的输出转换为 2*1 向量，并使用 Softmax 分配一个标签。

该模型同时使用 MLM 和 NSP 进行训练，以最小化两种策略的综合损失函数。

6、微调

在预训练之后，BERT 将使用标注数据对特定任务进行微调。在微调训练中，大多数超参数与 BERT 训练中的参数相同。

微调的目的是通过调整 BERT 模型的参数，使其更好地适应数据，从而优化 BERT 模型，使其在特定任务中表现出色。例如，可以在较小的电影评论数据集上对在大型文本数据语料库上预先训练好的 BERT 模型进行微调，以提高其准确预测特定评论情感的能力。

结论

通过实施双向语境，BERT 改变了自然语言处理方法，使模型能够在完整的上下文中理解词语。基于 Transformer 架构的 BERT 在各种 NLP 任务中的表现都优于早期的单向模型。它提高了 NLP 性能的标准，因为它可以在大型数据集上进行预训练，并针对特定工作进行微调，而无需对模型架构进行重大改动。由于其适应性和高效性，BERT 已成为改变计算机理解和处理人类语言方式的基本模型。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~

为什么要学习大模型？

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着AI技术飞速发展，预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！