news 2026/1/22 11:40:45

提示学习:大模型能力跃升的关键技术,一文读懂,建议永久收藏!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
提示学习:大模型能力跃升的关键技术,一文读懂,建议永久收藏!

提示学习(Prompt Learning)作为连接预训练语言模型(PLMs)与下游任务的桥梁,有效弥合了预训练与微调之间的鸿沟。本文基于《提示学习研究综述》doi:10.3778/j.issn.1002-8331.2407-0436一文,系统梳理了提示学习的核心思想、两大关键步骤(提示模板与语言表达器),带您深入了解这一驱动大模型能力跃升的关键技术。

一、提示学习:弥合预训练与微调的鸿沟

传统的“预训练-微调”(Pre-train and Fine-tune)范式,虽然在自然语言处理(NLP)等领域取得了显著成就,但其核心问题在于预训练任务(如掩码语言建模MLM)和下游微调任务之间存在巨大的数据和目标函数差距。这限制了预训练语言模型(PLMs)中通用知识向特定任务的有效迁移。

提示学习的提出,正是为了解决这一问题。它借鉴了迁移学习的思想,通过设计有效的提示,将下游任务转化为PLMs在预训练阶段更熟悉的完形填空任务形式。

核心思想:提示模板插入到原始输入中,将任务数据转化为自然语言形式输入PLMs,模型输出预测结果后,再通过语言表达器将输出映射到相应的标签。

这种范式不仅缩小了差距,还使得PLMs能够很好地应用于小样本(Few-shot)甚至零样本(Zero-shot)场景。

图注:传统范式(a)需要为每个下游任务微调模型;提示学习范式(b)通过特定提示,使PLMs适应多任务,灵活性更高。

想象一下,你有一个超级学霸(预训练语言模型,PLM),他读完了人类所有的书,知识渊博。在传统范式:“预训练-微调”(PFT)下,我们要让学霸完成一个新任务(比如判断一句话的情感),需要给他看几千个标注好的例子,然后微调他大脑里的所有知识结构,让他专门去适应这个任务。这不仅耗时耗力,而且如果新任务的数据太少,学霸很容易“偏科”(过拟合)。而在提示学习(Prompt Learning)范式下,它不改变学霸的大脑结构,而是给他一个巧妙的提示,让他用已有的知识来解决问题。

以情感分析任务为例,提示学习将其转化为完形填空任务

图注: 提示学习将“I like eating apples.”(原始输入)与“It was [MASK].”(提示模板)融合,PLM预测[MASK]位置的词,语言表达器将预测词(如great)映射到标签(positive)。

补充示例:

  • 任务:判断“这杯咖啡太棒了”的情感。
  • 传统微调:训练模型识别“太棒了”是正面情感。
  • 提示学习:给模型一个提示:“这杯咖啡太棒了。总的来说,这是一种[MASK]的体验。”
  • • 模型只需要像做完形填空一样,填入“正面”或“积极”即可。

提示学习的优势显而易见:

  • 高效:无需微调整个模型,节省了巨大的计算资源。
  • 巧用:充分利用了PLM在预训练阶段学到的通用知识。
  • 零/小样本:在数据极度匮乏的情况下,也能通过提示引导模型做出准确判断。

二、提示学习的“两板斧”:模板与表达器

提示学习的实现,就像设计一个精妙的“填空题”和“答案解析器”,主要依赖于两大核心组件:提示模板语言表达器

图注: 提示学习的整体框架,分为基于提示模板的方法和基于语言表达器的方法两大类。

1. 提示模板的构建:如何“提问”

提示模板是提示学习的“灵魂”,它决定了模型如何理解任务。构建方法主要分为两大类:

提示模板构建方法核心思想关键技术通俗示例
离散提示(硬提示)在离散的词汇空间中构建或搜索提示,通常是自然语言文本。人工构建:依赖领域专家知识,如GPT-3、PET。自动构建:通过算法搜索最佳的离散提示,如AutoPrompt、LM-BFF。情感分析:“这部电影太棒了。它让我感觉很[MASK]。”搜索最佳词汇:算法自动找到比“感觉很”更有效的连接词。
连续提示(软提示)在连续的嵌入空间中学习可优化的向量作为提示,不直接对应自然语言词汇。Prefix-tuning:只优化一个较小的、连续的、特定于任务的向量,固定PLMs参数。Prompt-tuning:Prefix-tuning的简化版,学习连续提示来调整固定参数的LM。参数高效:相当于在模型的输入层插入一段可训练的“暗号”,只训练暗号,不训练模型主体。
引入外部知识将知识图谱、词典等外部知识融入提示构建,增强提示的语义信息。KPT:利用知识图谱中的实体关系信息来构建提示。
思维提示(X-of-Thought)模拟人类的思考过程,将复杂问题分解为多个简单步骤。思维链(CoT):通过中间推理步骤引导模型进行逻辑推理。思维链(CoT):“请一步一步思考,然后给出答案。”
1.1 人工构建提示模板(Hard Prompting)

依赖领域专家知识手动设计提示,通常是自然语言文本。

  • NLP领域:LAMA方法通过人工模板探索PLMs中的事实知识;GPT-3使用人工提示适应生成任务;PET方法利用人工模板将输入重述为完形填空式短语。
  • CV和多模态领域:****CLIP模型(如图4所示)通过人工构建文本提示(如“A photo of a {object}.”),将图像分类转化为图像-文本匹配问题,实现零样本迁移。SAM模型(如图5所示)则通过提示编码器接收点、框、文本等提示信息,实现通用图像分割。

图注: CLIP通过文本编码器将提示文本转化为向量,计算图像向量与文本向量的相似度,实现零样本迁移。

图注:SAM模型通过提示编码器处理点、框、文本等提示信息,与图像编码向量结合,由掩码解码器输出有效掩码。

1.2 自动构建提示模板

旨在克服人工构建的耗时耗力及效果不佳的问题。

  • 离散提示:在离散空间中自动搜索最佳提示。例如,AutoPrompt使用基于梯度的搜索来确定最佳提示词,LM-BFF使用T5模型自动创建提示模板。
  • 连续提示(Soft Prompting):采用可学习向量作为提示模板,在连续嵌入空间中学习最优提示。
  • Prefix-tuning:如图6所示,保持PLM参数固定,只优化一个较小的、连续的、特定于任务的前缀向量,适用于自然语言生成任务。
  • Prompt-tuning:可看作Prefix-tuning的简化,只在输入层学习连续提示。
  • CV领域:****CoOp首次将连续提示应用于CV,通过可学习向量对提示进行上下文建模;CoCoOp引入输入-条件向量,增强泛化能力;VPT(如图7所示)在CV Transformer中只引入少量任务特定的可学习参数(视觉提示),保持主干参数不变。

图注: 传统微调(上)与Prefix-tuning(下)的对比,Prefix-tuning实现了参数高效微调。

图注: VPT在Transformer的输入端插入可学习的视觉提示(Prompt),仅优化提示参数,实现CV领域的参数高效微调。

1.3 引入外部知识构建提示

知识图谱、词典等外部知识融入提示构建,增强提示的语义信息和准确性。例如,KPT利用知识图谱中的实体关系信息来构建提示。

1.4 思维提示(X-of-Thought)

旨在增强模型的逻辑推理能力。思维链(Chain-of-Thought, CoT)是典型代表,它通过构建思维推理提示,将复杂的推理问题分解为多个简单的步骤,模拟人类思考过程。

2. 语言表达器的构建:如何“解读”

语言表达器负责将PLMs在完形填空任务中预测出的词汇(如[MASK]位置的词)映射回最终的任务标签(如“正面”或“负面”)。

语言表达器构建方法核心思想关键技术通俗示例
人工表达器专家手动定义标签词与标签的映射关系,如将great映射为positive简单直观,但依赖人工经验,且标签词选择可能影响性能。映射:将模型填入的“积极”、“正面”、“棒极了”都映射为最终标签“正面”。
基于搜索的表达器通过搜索算法在词汇表中寻找最佳的标签词集合。PET:在训练过程中搜索最佳的标签词。优化映射:算法发现“令人愉悦”比“好”更能准确代表“正面”标签。
软表达器学习一个可训练的矩阵,将模型输出的词汇嵌入空间映射到标签空间。Soft Verbalizer:避免了对离散标签词的依赖,直接在连续空间进行映射。自动匹配:机器自动学习“正面”和“积极”在向量空间中的相似性,并将其归为一类。
引入外部知识利用外部知识(如词典、知识图谱)来辅助标签词的选择和映射。KPT:利用知识图谱信息来增强标签词的选择。

三、提示学习的应用

提示学习已广泛应用于NLP、CV和多模态等多个领域。

领域典型任务关键模型/方法
NLP情感分析、文本分类、关系抽取、自然语言推理PET、LM-BFF、CoT
CV图像分类、视频动作识别、视觉定位CLIP、CoOp、VPT、SAM
多模态视觉问答、多模态机器翻译、多模态情感分析CLIP、CPT、VL-T5

1. 计算机视觉(CV)领域的应用

在CV领域,提示学习主要用于将视觉任务转化为模型更熟悉的“文本-图像”匹配任务,实现零样本迁移。

关键模型核心思想提示形式应用场景
CLIP将图像分类任务转化为“图像-文本”匹配。通过人工构建文本提示(如“A photo of a {class}.”),计算图像特征与提示文本特征的相似度进行分类。人工离散提示零样本图像分类
CoOp/CoCoOp针对CLIP中人工提示的局限性,引入可学习的连续向量作为提示,提升模型适应性。连续提示图像识别
VPT (Visual Prompt Tuning)在Transformer主干参数固定的情况下,只在输入空间引入少量任务特定的可学习参数(视觉提示)连续提示图像识别、目标检测
SAM (Segment Anything Model)这是一个通用的图像分割模型,通过提示编码器接收点、框、文本等提示信息,实现交互式分割。多模态提示图像分割

2. 多模态领域的应用

提示学习在多模态任务中,如视觉问答、多模态情感分析等,通过设计跨模态提示,促进不同模态信息(如图像和文本)的融合与理解。例如,**CPT(Cross-modal Prompt Tuning)**方法首次将视觉定位任务表述为完形填空问题,通过视觉和文本提示来引导模型建立查询文本和图像之间的联系。

四、挑战与展望

提示学习虽然取得了巨大的成功,但仍面临着诸多挑战,同时也预示着未来的发展方向。

1. 现有挑战

  • 提示理解与设计:提示模板的微小变化可能导致模型性能的巨大波动,如何设计出鲁棒性强的提示仍是难题。
  • 知识迁移与泛化:如何确保提示学习在面对新的、未知的领域时,具有更强的领域泛化能力
  • 多模态应用:如何设计更有效的跨模态提示,以实现不同模态信息的深度融合和理解。

2. 未来展望

  • 通用化与自动化:发展更加通用的提示学习框架,实现提示模板和语言表达器的全自动、自适应生成,减少对人工经验的依赖。
  • 提示与推理的结合:进一步探索思维链(CoT)等方法,增强模型的逻辑推理和复杂问题解决能力。
  • 提示驱动的知识蒸馏:利用提示学习将大模型的知识高效地迁移到小模型中,实现模型轻量化
  • 提示与强化学习的结合:利用强化学习来优化提示的生成过程,以获得更有效的提示。

总结:提示学习是预训练模型发展史上的一个重要里程碑,它以一种更自然、更高效的方式,释放了PLMs蕴含的巨大潜力。随着技术的不断演进,提示学习必将成为推动人工智能迈向更通用、更智能未来的核心驱动力之一。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01教学内容

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

vx扫描下方二维码即可

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!

0690+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/21 17:42:49

图解说明JLink与目标板电源匹配调试要点

一个小小的VTref,为何能让JLink调试瞬间失败?你有没有遇到过这种情况:目标板明明已经上电,MCU也在运行,但JLink就是连不上?提示“Target voltage unknown”、“Communication timeout”,换线、重…

作者头像 李华
网站建设 2026/1/15 11:28:54

10、Express 路由、HTTPS 使用与 API 构建全解析

Express 路由、HTTPS 使用与 API 构建全解析 1. 路由基础与静态文件处理 在 Web 应用开发里,路由是极为关键的部分,它负责将用户的请求精准地导向对应的资源或处理逻辑。以下为你详细介绍路由的一些基础规则和静态文件的路由处理方式。 1.1 路由规则 当用户请求资源时,不…

作者头像 李华
网站建设 2026/1/4 14:25:58

【收藏级】RAG技术落地实践:从技术选型到场景部署的大模型应用指南

RAG企业级落地实践总结与问题汇总 摘要 检索增强生成(RAG)作为企业级大模型落地的最优解之一,本文基于RAG最新技术进展,系统纠正传统实践中的认知偏差与工具命名错误,从落地价值、关键决策、技术选型、核心要点、场景案…

作者头像 李华
网站建设 2026/1/17 11:54:50

Open-AutoGLM性能翻倍秘诀:Ubuntu虚拟机资源调优的4个核心参数

第一章:Open-AutoGLM在Ubuntu虚拟机中的运行环境概述Open-AutoGLM 是一个面向自动化任务的开源大语言模型框架,支持在本地环境中部署与推理。在 Ubuntu 虚拟机中运行该框架,能够提供隔离、可复现且资源可控的实验环境,适用于开发测…

作者头像 李华
网站建设 2025/12/25 10:48:28

Gazebo模型世界完整指南:从零开始构建专业机器人仿真环境

Gazebo模型世界完整指南:从零开始构建专业机器人仿真环境 【免费下载链接】gazebo_models_worlds_collection 项目地址: https://gitcode.com/gh_mirrors/gaz/gazebo_models_worlds_collection Gazebo模型世界集合项目是一个专为机器人仿真开发者设计的开源…

作者头像 李华