news 2026/3/29 15:29:44

Language Models Struggle to Use Representations Learned In-Context

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Language Models Struggle to Use Representations Learned In-Context

Language Models Struggle to Use Representations Learned In-Context

Authors:Michael A. Lepori, Tal Linzen, Ann Yuan, Katja Filippova

Deep-Dive Summary:

论文总结:大语言模型中的思维链提示(Chain-of-Thought Prompting)

1. 引言与背景

虽然大型语言模型(LLMs)在各种自然语言处理任务中表现出色,但在处理需要多步推理的任务(如算术推理、常识推理和符号推理)时,其表现往往不尽如人意。本文探讨了如何通过一种简单而有效的方法——**思维链提示(Chain-of-Thought Prompting, CoT)**来提升这些模型的推理能力。

2. 什么是思维链提示(CoT)?

思维链是指在给出最终答案之前,产生的一系列中间推理步骤。思维链提示法通过在少样本提示(Few-shot Prompting)中加入这些推理过程,引导模型学会“思考”后再回答。

如上图所示,标准提示直接给出“问题-答案”对,而思维链提示则在答案前增加了一段逻辑推导。这种方法不需要对模型进行微调,只需通过提示词(Prompting)即可触发。

3. 思维链提示的核心特性

思维链提示具有以下几个关键优势:

  1. 分解任务:它允许模型将多步问题分解为更小的中间步骤,从而将计算资源分配给需要更多推理的部分。
  2. 可解释性:它为模型的推理路径提供了一个窗口,使我们能够观察到模型是如何得出结论的,并方便调试。
  3. 普适性:它可以应用于数学应用题、符号操纵和常识推理等多种任务。
  4. 易用性:只需在提示中增加几个推理示例,即可在预训练好的大型模型中激活该能力。

4. 算术推理实验

研究团队在包括 GSM8K、SVAMP、ASDiv、AQuA 和 MAWPS 在内的多个数学应用题基准测试中验证了思维链提示的效果。

实验设置

实验使用了多个大型语言模型,包括 LaMDA、GPT-3、Codex 和 PaLM,参数量级从7 B 7B7B540 B 540B540B不等。

5. 实验结果与涌现能力

实验结果表明,思维链提示在不同模型上的表现具有明显的规模效应

  • 涌现性:思维链提示对于小型模型(约< 10 B <10B<10B参数)基本无效,甚至可能降低性能。
  • 规模增长:其提升效果在模型规模达到约100 B 100B100B参数时显著爆发。
  • 超越最先进水平:例如,使用思维链提示的 PaLM540 B 540B540B在 GSM8K 数据集上的表现优于经过微调的专用模型。

此外,思维链提示对不同提示词(Prompters)的风格以及不同的样本顺序都表现出了较强的鲁棒性。

Original Abstract:Though large language models (LLMs) have enabled great success across a wide variety of tasks, they still appear to fall short of one of the loftier goals of artificial intelligence research: creating an artificial system that can adapt its behavior to radically new contexts upon deployment. One important step towards this goal is to create systems that can induce rich representations of data that are seen in-context, and then flexibly deploy these representations to accomplish goals. Recently, Park et al. (2024) demonstrated that current LLMs are indeed capable of inducing such representation from context (i.e., in-context representation learning). The present study investigates whether LLMs can use these representations to complete simple downstream tasks.
We first assess whether open-weights LLMs can use in-context representations for next-token prediction, and then probe models using a novel task, adaptive world modeling. In both tasks, we find evidence that open-weights LLMs struggle to deploy representations of novel semantics that are defined in-context, even if they encode these semantics in their latent representations. Furthermore, we assess closed-source, state-of-the-art reasoning models on the adaptive world modeling task, demonstrating that even the most performant LLMs cannot reliably leverage novel patterns presented in-context. Overall, this work seeks to inspire novel methods for encouraging models to not only encode information presented in-context, but to do so in a manner that supports flexible deployment of this information.

PDF Link:2602.04212v1

部分平台可能图片显示异常,请以我的博客内容为准

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 12:08:24

运维为什么需要“懂这么多”?

在IT行业流传着一句话&#xff1a;“运维的知识体系像个无底洞&#xff0c;刚填完一个坑&#xff0c;转头又发现三个新坑。”这话道出了无数运维从业者的心声——从服务器上架到集群部署&#xff0c;从日志分析到灾备演练&#xff0c;从网络调优到安全加固&#xff0c;运维工作…

作者头像 李华
网站建设 2026/3/15 21:32:24

绕过WAF:追踪源站IP与SQL注入的艺术

绕过WAF&#xff1a;追踪源站IP与SQL注入的艺术 ****声明&#xff1a;****文章中涉及的程序(方法)可能带有攻击性&#xff0c;仅供安全研究与教学之用&#xff0c;读者将其信息做其他用途&#xff0c;由用户承担全部法律及连带责任&#xff0c;文章作者不承担任何法律及连带责…

作者头像 李华
网站建设 2026/3/25 7:12:56

一个支持暂停和继续的 C++ 时间管理类

前段时间在项目里碰到一个挺常见、但又特别容易写烂的需求&#xff1a; 统计时间。 听起来很简单&#xff0c;但一旦加上这几个条件&#xff0c;事情立刻变复杂&#xff1a; 有一个总时间总时间由多个分段组成每个分段过程中可以暂停、恢复&#xff0c;而且可能不止一次暂停期间…

作者头像 李华
网站建设 2026/3/15 9:08:57

SpringBoot一键集成GrayLog,那叫一个丝滑

在微服务架构中&#xff0c;一个服务通常都会有多个实例&#xff0c;而这些服务实例可能会被部署到不同的机器或虚拟容器上。此时对于日志数据的查看和分析就会变得困难起来&#xff0c;因为这些服务的日志数据都散落在各自实例所在的机器或容器上。例如&#xff0c;我现在要在…

作者头像 李华
网站建设 2026/3/20 8:04:45

软件安全测试标准是什么?ISO 27001与OWASP关键要求

在当今数字化的世界里&#xff0c;软件安全已成为企业成功的关键因素之一。随着网络攻击的日益复杂和频繁&#xff0c;确保软件的安全性变得尤为重要。为了帮助组织评估和提升安全性&#xff0c;国际上制定了一系列的标准和指南。本文将重点介绍两个重要的框架&#xff1a;ISO …

作者头像 李华