news 2026/5/23 18:54:25

12.7 现代序列模型:BERT、GPT系列、T5等预训练语言模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
12.7 现代序列模型:BERT、GPT系列、T5等预训练语言模型

12.7 现代序列模型:BERT、GPT系列、T5等预训练语言模型

基于Transformer架构的预训练语言模型是自然语言处理领域近五年来最重大的范式革命。它们通过在超大规模文本语料上进行自监督预训练,学习通用的语言表示,再通过微调适配到各种下游任务,从而实现了前所未有的性能突破和任务泛化能力。本节将深入剖析三类具有代表性的预训练语言模型:基于双向Transformer编码器的BERT、基于自回归Transformer解码器的GPT系列,以及统一了所有任务的文本到文本框架T5

12.7.1 预训练-微调范式的确立与核心思想

在预训练语言模型兴起之前,深度学习模型通常针对特定任务从零开始训练。这种模式的局限性在于:1)需要大量标注数据;2)学到的特征难以迁移。预训练-微调范式的核心思想是**“两阶段学习”:首先,在一个无需标注的大规模通用语料库上,通过设计自监督任务(预训练目标)让模型学习语言的通用知识(如词汇、句法、语义、常识);然后,将预训练好的模型作为初始权重,在特定下游任务的标注数据上进行有监督的微调**,使其快速适应新任务。

这一范式的成功依赖于两个关键:强大的Transformer架构作为特征提取器,以及能够有效驱动模型学习高质量语言表示的预训练目标。不同的预训练语言模型主要差异就在于对Transformer结构的选取(编码器、解码器或二者组合)以及对预训练目标的设计。

12.7.2 BERT:深度双向语言表征的突破

BERT(Bidirectional Encoder Representations from Transformers)由Devlin等人于2018年提出[1]。其核心创新在于利用Transformer编码器构建了真正意义上的深度双向语言模型,解决了之前模型(如GPT-1)仅能进行单向上下文建模的限制。

12.7.2.1 模型架构与预训练任务

BERT仅使用Transformer的编码器堆叠而成。其预训练任务的设计是其成功的关键,包含两个自监督任务:

  1. 掩码语言模型:在输入序列中,随机遮盖一定比例(如15%)的Token,模型的目标是预测这些被遮盖的原始Token。MLM允许模型在预测时“看见”被遮盖词左右两侧的上下文信息,从而实现深度双向理解。遮盖策略并非简单替换为[MASK],而是以一定概率替换为[MASK]、随机词或保持原词,以增强鲁棒性。

  2. 下一句预测:给定两个句子A和B,模型预测B是否为A的下一句。NSP任务旨在让模型学习句子间的连贯性和关系,这对理解段落、问答等任务至关重要。

输入表示由词嵌入、句子嵌入(区分句子A/B)和位置嵌入相加而成,以一个特殊的[CLS]Token开头,其最终输出向量常用于分类任务。

12.7.2.2 微调与应用

BERT的微调过程直观高效。对于不同任务,只需在BERT的编码器输出之上添加一个轻量的任务特定输出层(如一个分类层),然后使用下游任务数据对整个模型(包括BERT主体)进行端到端的微调。例如:

  • 单句分类(如情感分析):使用[CLS]对应的输出向量。
  • 句对分类(如自然语言推理):将两个句子拼接输入,同样使用[CLS]向量。
  • 序列标注(如命名实体识别):使用每个Token对应的输出向量。
  • 阅读理解(如SQuAD):将问题和段落拼接,模型通过学习两个向量来预测答案的起始和结束位置。

BERT在发布时,在11项NLP基准任务上取得了当时最好的结果,确立了基于编码器的预训练模型在语言理解任务上的统治地位。

12.7.3 GPT系列:自回归生成模型的演进

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/22 15:26:58

Thinkphp和Laravel宠物店交易商城管理系统的设计与实现-vue

目录 具体实现截图项目开发技术介绍PHP核心代码部分展示系统结论源码获取/同行可拿货,招校园代理 具体实现截图 本系统(程序源码数据库调试部署讲解)带文档1万字以上 同行可拿货,招校园代理 Thinkphp和Laravel宠物店交易商城管理系统的设计与实现-vue …

作者头像 李华
网站建设 2026/5/23 3:09:16

接口测试的分水岭时刻:Open-AutoGLM能否彻底取代Postman?真相令人意外

第一章:接口测试的分水岭时刻在软件测试的发展历程中,接口测试的兴起标志着从传统UI驱动验证向更高效、稳定和可维护的测试策略转型的关键节点。随着微服务架构的普及,系统间的依赖更多地通过API进行交互,使得接口成为质量保障的核…

作者头像 李华
网站建设 2026/5/19 7:54:57

Thinkphp和Laravel仓库火情火灾消防监测报警系统前vue端

目录具体实现截图项目开发技术介绍PHP核心代码部分展示系统结论源码获取/同行可拿货,招校园代理具体实现截图 本系统(程序源码数据库调试部署讲解)带文档1万字以上 同行可拿货,招校园代理 Thinkphp和Laravel仓库火情火灾消防监测报警系统前vue端 项…

作者头像 李华
网站建设 2026/5/23 6:30:01

Thinkphp和Laravel宠屋”宠物交易商城购物网站的设计与实现-vue

目录具体实现截图项目开发技术介绍PHP核心代码部分展示系统结论源码获取/同行可拿货,招校园代理具体实现截图 本系统(程序源码数据库调试部署讲解)带文档1万字以上 同行可拿货,招校园代理 Thinkphp和Laravel宠屋”宠物交易商城购物网站的设计与实现-vu…

作者头像 李华
网站建设 2026/5/19 0:38:55

还在为自动化脚本迁移头疼?Open-AutoGLM与Tosca API层适配差异一文讲透

第一章:自动化脚本迁移的现状与挑战随着企业IT基础设施的不断演进,自动化脚本在系统部署、配置管理、监控告警等场景中扮演着核心角色。然而,当组织从传统架构向云原生或混合云环境过渡时,原有自动化脚本面临兼容性差、维护成本高…

作者头像 李华
网站建设 2026/5/9 1:14:16

为什么顶尖团队都在弃用SoapUI转向Open-AutoGLM?真相就在这3大协同差异

第一章:从SoapUI到Open-AutoGLM:协同演进的必然趋势随着API生态的持续扩张与智能化测试需求的崛起,传统接口测试工具如SoapUI已难以满足现代开发对自动化、语义理解与智能生成的复合要求。在这一背景下,Open-AutoGLM作为融合大语言…

作者头像 李华