提示学习(Prompt Learning)作为连接预训练语言模型(PLMs)与下游任务的桥梁,有效弥合了预训练与微调之间的鸿沟。本文基于《提示学习研究综述》doi:10.3778/j.issn.1002-8331.2407-0436一文,系统梳理了提示学习的核心思想、两大关键步骤(提示模板与语言表达器),带您深入了解这一驱动大模型能力跃升的关键技术。
一、提示学习:弥合预训练与微调的鸿沟
传统的“预训练-微调”(Pre-train and Fine-tune)范式,虽然在自然语言处理(NLP)等领域取得了显著成就,但其核心问题在于预训练任务(如掩码语言建模MLM)和下游微调任务之间存在巨大的数据和目标函数差距。这限制了预训练语言模型(PLMs)中通用知识向特定任务的有效迁移。
提示学习的提出,正是为了解决这一问题。它借鉴了迁移学习的思想,通过设计有效的提示,将下游任务转化为PLMs在预训练阶段更熟悉的完形填空任务形式。
核心思想:将提示模板插入到原始输入中,将任务数据转化为自然语言形式输入PLMs,模型输出预测结果后,再通过语言表达器将输出映射到相应的标签。
这种范式不仅缩小了差距,还使得PLMs能够很好地应用于小样本(Few-shot)甚至零样本(Zero-shot)场景。
图注:传统范式(a)需要为每个下游任务微调模型;提示学习范式(b)通过特定提示,使PLMs适应多任务,灵活性更高。
想象一下,你有一个超级学霸(预训练语言模型,PLM),他读完了人类所有的书,知识渊博。在传统范式:“预训练-微调”(PFT)下,我们要让学霸完成一个新任务(比如判断一句话的情感),需要给他看几千个标注好的例子,然后微调他大脑里的所有知识结构,让他专门去适应这个任务。这不仅耗时耗力,而且如果新任务的数据太少,学霸很容易“偏科”(过拟合)。而在提示学习(Prompt Learning)范式下,它不改变学霸的大脑结构,而是给他一个巧妙的提示,让他用已有的知识来解决问题。
以情感分析任务为例,提示学习将其转化为完形填空任务:
图注: 提示学习将“I like eating apples.”(原始输入)与“It was [MASK].”(提示模板)融合,PLM预测[MASK]位置的词,语言表达器将预测词(如great)映射到标签(positive)。
补充示例:
- •任务:判断“这杯咖啡太棒了”的情感。
- •传统微调:训练模型识别“太棒了”是正面情感。
- •提示学习:给模型一个提示:“这杯咖啡太棒了。总的来说,这是一种[MASK]的体验。”
- • 模型只需要像做完形填空一样,填入“正面”或“积极”即可。
提示学习的优势显而易见:
- •高效:无需微调整个模型,节省了巨大的计算资源。
- •巧用:充分利用了PLM在预训练阶段学到的通用知识。
- •零/小样本:在数据极度匮乏的情况下,也能通过提示引导模型做出准确判断。
二、提示学习的“两板斧”:模板与表达器
提示学习的实现,就像设计一个精妙的“填空题”和“答案解析器”,主要依赖于两大核心组件:提示模板和语言表达器。
图注: 提示学习的整体框架,分为基于提示模板的方法和基于语言表达器的方法两大类。
1. 提示模板的构建:如何“提问”
提示模板是提示学习的“灵魂”,它决定了模型如何理解任务。构建方法主要分为两大类:
| 提示模板构建方法 | 核心思想 | 关键技术 | 通俗示例 |
|---|---|---|---|
| 离散提示(硬提示) | 在离散的词汇空间中构建或搜索提示,通常是自然语言文本。 | 人工构建:依赖领域专家知识,如GPT-3、PET。自动构建:通过算法搜索最佳的离散提示,如AutoPrompt、LM-BFF。 | 情感分析:“这部电影太棒了。它让我感觉很[MASK]。”搜索最佳词汇:算法自动找到比“感觉很”更有效的连接词。 |
| 连续提示(软提示) | 在连续的嵌入空间中学习可优化的向量作为提示,不直接对应自然语言词汇。 | Prefix-tuning:只优化一个较小的、连续的、特定于任务的向量,固定PLMs参数。Prompt-tuning:Prefix-tuning的简化版,学习连续提示来调整固定参数的LM。 | 参数高效:相当于在模型的输入层插入一段可训练的“暗号”,只训练暗号,不训练模型主体。 |
| 引入外部知识 | 将知识图谱、词典等外部知识融入提示构建,增强提示的语义信息。 | KPT:利用知识图谱中的实体关系信息来构建提示。 | |
| 思维提示(X-of-Thought) | 模拟人类的思考过程,将复杂问题分解为多个简单步骤。 | 思维链(CoT):通过中间推理步骤引导模型进行逻辑推理。 | 思维链(CoT):“请一步一步思考,然后给出答案。” |
1.1 人工构建提示模板(Hard Prompting)
依赖领域专家知识手动设计提示,通常是自然语言文本。
- •NLP领域:LAMA方法通过人工模板探索PLMs中的事实知识;GPT-3使用人工提示适应生成任务;PET方法利用人工模板将输入重述为完形填空式短语。
- •CV和多模态领域:****CLIP模型(如图4所示)通过人工构建文本提示(如“A photo of a {object}.”),将图像分类转化为图像-文本匹配问题,实现零样本迁移。SAM模型(如图5所示)则通过提示编码器接收点、框、文本等提示信息,实现通用图像分割。
图注: CLIP通过文本编码器将提示文本转化为向量,计算图像向量与文本向量的相似度,实现零样本迁移。
图注:SAM模型通过提示编码器处理点、框、文本等提示信息,与图像编码向量结合,由掩码解码器输出有效掩码。
1.2 自动构建提示模板
旨在克服人工构建的耗时耗力及效果不佳的问题。
- •离散提示:在离散空间中自动搜索最佳提示。例如,AutoPrompt使用基于梯度的搜索来确定最佳提示词,LM-BFF使用T5模型自动创建提示模板。
- •连续提示(Soft Prompting):采用可学习向量作为提示模板,在连续嵌入空间中学习最优提示。
- •Prefix-tuning:如图6所示,保持PLM参数固定,只优化一个较小的、连续的、特定于任务的前缀向量,适用于自然语言生成任务。
- •Prompt-tuning:可看作Prefix-tuning的简化,只在输入层学习连续提示。
- •CV领域:****CoOp首次将连续提示应用于CV,通过可学习向量对提示进行上下文建模;CoCoOp引入输入-条件向量,增强泛化能力;VPT(如图7所示)在CV Transformer中只引入少量任务特定的可学习参数(视觉提示),保持主干参数不变。
图注: 传统微调(上)与Prefix-tuning(下)的对比,Prefix-tuning实现了参数高效微调。
图注: VPT在Transformer的输入端插入可学习的视觉提示(Prompt),仅优化提示参数,实现CV领域的参数高效微调。
1.3 引入外部知识构建提示
将知识图谱、词典等外部知识融入提示构建,增强提示的语义信息和准确性。例如,KPT利用知识图谱中的实体关系信息来构建提示。
1.4 思维提示(X-of-Thought)
旨在增强模型的逻辑推理能力。思维链(Chain-of-Thought, CoT)是典型代表,它通过构建思维推理提示,将复杂的推理问题分解为多个简单的步骤,模拟人类思考过程。
2. 语言表达器的构建:如何“解读”
语言表达器负责将PLMs在完形填空任务中预测出的词汇(如[MASK]位置的词)映射回最终的任务标签(如“正面”或“负面”)。
| 语言表达器构建方法 | 核心思想 | 关键技术 | 通俗示例 |
|---|---|---|---|
| 人工表达器 | 专家手动定义标签词与标签的映射关系,如将great映射为positive。 | 简单直观,但依赖人工经验,且标签词选择可能影响性能。 | 映射:将模型填入的“积极”、“正面”、“棒极了”都映射为最终标签“正面”。 |
| 基于搜索的表达器 | 通过搜索算法在词汇表中寻找最佳的标签词集合。 | PET:在训练过程中搜索最佳的标签词。 | 优化映射:算法发现“令人愉悦”比“好”更能准确代表“正面”标签。 |
| 软表达器 | 学习一个可训练的矩阵,将模型输出的词汇嵌入空间映射到标签空间。 | Soft Verbalizer:避免了对离散标签词的依赖,直接在连续空间进行映射。 | 自动匹配:机器自动学习“正面”和“积极”在向量空间中的相似性,并将其归为一类。 |
| 引入外部知识 | 利用外部知识(如词典、知识图谱)来辅助标签词的选择和映射。 | KPT:利用知识图谱信息来增强标签词的选择。 |
三、提示学习的应用
提示学习已广泛应用于NLP、CV和多模态等多个领域。
| 领域 | 典型任务 | 关键模型/方法 |
|---|---|---|
| NLP | 情感分析、文本分类、关系抽取、自然语言推理 | PET、LM-BFF、CoT |
| CV | 图像分类、视频动作识别、视觉定位 | CLIP、CoOp、VPT、SAM |
| 多模态 | 视觉问答、多模态机器翻译、多模态情感分析 | CLIP、CPT、VL-T5 |
1. 计算机视觉(CV)领域的应用
在CV领域,提示学习主要用于将视觉任务转化为模型更熟悉的“文本-图像”匹配任务,实现零样本迁移。
| 关键模型 | 核心思想 | 提示形式 | 应用场景 |
|---|---|---|---|
| CLIP | 将图像分类任务转化为“图像-文本”匹配。通过人工构建文本提示(如“A photo of a {class}.”),计算图像特征与提示文本特征的相似度进行分类。 | 人工离散提示 | 零样本图像分类 |
| CoOp/CoCoOp | 针对CLIP中人工提示的局限性,引入可学习的连续向量作为提示,提升模型适应性。 | 连续提示 | 图像识别 |
| VPT (Visual Prompt Tuning) | 在Transformer主干参数固定的情况下,只在输入空间引入少量任务特定的可学习参数(视觉提示)。 | 连续提示 | 图像识别、目标检测 |
| SAM (Segment Anything Model) | 这是一个通用的图像分割模型,通过提示编码器接收点、框、文本等提示信息,实现交互式分割。 | 多模态提示 | 图像分割 |
2. 多模态领域的应用
提示学习在多模态任务中,如视觉问答、多模态情感分析等,通过设计跨模态提示,促进不同模态信息(如图像和文本)的融合与理解。例如,**CPT(Cross-modal Prompt Tuning)**方法首次将视觉定位任务表述为完形填空问题,通过视觉和文本提示来引导模型建立查询文本和图像之间的联系。
四、挑战与展望
提示学习虽然取得了巨大的成功,但仍面临着诸多挑战,同时也预示着未来的发展方向。
1. 现有挑战
- •提示理解与设计:提示模板的微小变化可能导致模型性能的巨大波动,如何设计出鲁棒性强的提示仍是难题。
- •知识迁移与泛化:如何确保提示学习在面对新的、未知的领域时,具有更强的领域泛化能力。
- •多模态应用:如何设计更有效的跨模态提示,以实现不同模态信息的深度融合和理解。
2. 未来展望
- •通用化与自动化:发展更加通用的提示学习框架,实现提示模板和语言表达器的全自动、自适应生成,减少对人工经验的依赖。
- •提示与推理的结合:进一步探索思维链(CoT)等方法,增强模型的逻辑推理和复杂问题解决能力。
- •提示驱动的知识蒸馏:利用提示学习将大模型的知识高效地迁移到小模型中,实现模型轻量化。
- •提示与强化学习的结合:利用强化学习来优化提示的生成过程,以获得更有效的提示。
总结:提示学习是预训练模型发展史上的一个重要里程碑,它以一种更自然、更高效的方式,释放了PLMs蕴含的巨大潜力。随着技术的不断演进,提示学习必将成为推动人工智能迈向更通用、更智能未来的核心驱动力之一。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。
希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01教学内容
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
vx扫描下方二维码即可
本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:
04视频和书籍PDF合集
从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
05行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!
0690+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)
07 deepseek部署包+技巧大全
由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发