Shunyu Yao 加入HY首作CL-bench：揭示大模型的关键短板-开发者社区

现实世界的任务远比当前评测所考虑的问题复杂得多。许多任务高度依赖上下文，需要模型从复杂的上下文中学习，利用预训练阶段未曾获得的新知识来推理和解决问题。这与人类在日常场景中的学习方式高度一致：快速理解从未见过的产品文档、参与有多年历史背景的群组对话、或从大量实验数据中发现规律。

当前大语言模型在数学竞赛、编程挑战、专家级考试中表现惊艳，但一个关键能力却被严重忽视——从上下文中学习新知识并应用它解决问题。论文将这种能力称为"Context Learning"（上下文学习），并发现即使是表现最好的GPT-5.1，任务解决率也仅有23.7%。

背景与核心问题

论文指出，现实世界的任务远比当前评测所考虑的问题复杂得多。许多任务高度依赖上下文，需要模型从复杂的上下文中学习，利用预训练阶段未曾获得的新知识来推理和解决问题。这与人类在日常场景中的学习方式高度一致：快速理解从未见过的产品文档、参与有多年历史背景的群组对话、或从大量实验数据中发现规律。

[Figure 1: 语言模型优化路径与现实任务需求之间的错配] 论文展示了当前LM(Language Model，语言模型)主要依赖预训练知识进行推理，而现实任务往往依赖上下文，需要模型从上下文中学习来解决问题。

然而，当前研究主要关注的是"提示工程"和ICL(In-Context Learning，上下文学习)，前者针对模型可通过推理和预训练知识解决的简单任务，后者通过少量输入输出示例让模型推断任务格式。两种范式都主要强调从简单提示和预训练知识中推理，与现实场景相去甚远。

CL-bench：一个真正测试上下文学习的基准

为系统评估上下文学习能力，论文推出CL-bench，包含500个复杂上下文、1,899个任务和31,607条验证规则，全部由经验丰富的领域专家精心构建。

[Figure 2: CL-bench任务示例] 论文展示了一个带电粒子动力学分析任务，模型需要从提供的上下文中学习新知识，而非仅依赖静态的预训练知识。模型解答将根据精心标注的任务级评分规则进行验证。

论文将上下文分为四大类别，进一步细分为18个子类别：

(1) 领域知识推理：包括金融、医疗、人文、法律咨询、生活方式、管理和科学七个子类别。模型需学习虚构的法律体系、新创建的金融工具或小众专业知识，并应用于案件裁决、财务分析或专业建议。

(2) 规则系统应用：包括游戏机制、数学形式化、编程语法、法律法规和技术标准五个子类别。模型需理解新的形式系统并正确应用于游戏分析、数学证明或代码任务。

(3) 程序任务执行：包括指导性程序、操作性程序和工作流编排三个子类别。模型需学习复杂的程序、工作流或操作指令，并正确执行故障排除或复杂工作流编排。

(4) 经验发现与模拟：包括实验数据、观测数据和模拟环境三个子类别。这是最具挑战性的类别，需要归纳推理从经验证据中发现潜在规律，而非前三类强调的演绎推理。

[Figure 3: CL-bench的上下文分类体系] 论文展示了四大类别及18个子类别的完整分类结构。

[Figure 4: CL-bench中上下文类别的分布] 子类别分布相对均衡。

无污染设计与严格验证

为确保评测的是真正的上下文学习能力，论文采用三种方法构建包含新知识的上下文：虚构创作（如为虚构国家创建完整法律体系）、现有内容修改（如改变历史事件或科学定义）、以及纳入小众和新兴内容（如前沿研究发现或新发布的产品手册）。

[Table 1: CL-bench统计数据] 包括上下文、任务、评分规则的数量，以及每个上下文的平均和最大任务数、每个任务的评分规则数和输入长度。平均每个上下文包含3.8个任务，每个任务包含16.6条评分规则，平均输入长度为10.4K tokens，最长达65.0K tokens。

每个任务平均包含16.6条评分规则，从事实正确性、计算准确性、判断正确性、程序正确性、内容完整性和格式合规性等多个维度进行验证。论文使用GPT-5.1作为验证器，与Claude Opus 4.5和Qwen-3-Max的原始一致率超过90%，人工抽样验证准确率也超过90%。

十大前沿模型的表现：令人警醒的结果

论文评估了十个最先进的语言模型，包括OpenAI的GPT-5.1、GPT-5.2和o3，Anthropic的Claude-Opus-4.5 Thinking，Google的Gemini-3-Pro，以及Moonshot、阿里巴巴、DeepSeek、字节跳动和腾讯的模型。

[Table 2: 十个前沿LLM在CL-bench上的任务解决率] 所有模型均在推理模式下评估，结果报告为三次运行的均值±标准差(%)。

核心发现：

(1) 整体表现堪忧：所有模型的平均任务解决率仅为17.2%，最佳模型GPT-5.1也仅达到23.7%。大多数模型集中在13%-18%之间。

(2) 类别难度差异显著：领域知识推理最易处理，最佳模型达25.3%；经验发现与模拟最具挑战，平均解决率仅约11%，比其他类别低约6%。

(3) 子类别差异揭示细粒度能力差距：在规则系统应用中，法律法规子类别所有模型解决率超过29%，GPT-5.1超过40%，而数学形式化大多数模型低于15%。

[Figure 5: 十个前沿LM在各子类别的任务解决率比较] 深色单元格表示较高值。所有模型使用思考或高推理努力设置。

错误分析：为何模型表现不佳

[Table 3: 各模型的错误类型分布] 大多数解决失败归因于忽略上下文中的知识或错误应用上下文知识。相当比例的错误也源于指令遵循失败，导致输出格式错误。

论文发现，上下文误用和上下文忽略构成主要失败模式。上下文误用率在所有模型中均超过60%，即使是最强模型也难以正确解释和应用提供的上下文。格式错误同样普遍，GPT-5.1超过35%，Claude-Opus-4.5超过40%。

推理努力与上下文长度的影响

[Figure 6: GPT-5.1在高与低推理努力设置下的性能比较] 平均解决率从21.2%提升至23.7%，仅获得2.5%的适度增益，表明增强推理努力对上下文学习任务的益处有限。

提高推理努力通常能改善上下文学习，但收益有限。GPT-5.1从低推理努力的21.2%提升至高推理努力的23.7%，仅增加2.5%。

[Figure 7: 不同输入长度范围的性能表现] 所有模型随着输入长度增加，解决率持续下降。这一趋势无论推理努力水平如何都成立。

任务难度与上下文长度相关。所有模型随着上下文长度增加表现持续下降，Claude-Opus-4.5下降最为陡峭，在0-15K和120K+上下文长度之间解决率下降超过20%。

知识类型的影响

[Figure 8: 法律咨询与法律法规子类别的性能比较] 尽管属于同一知识领域，模型在法律法规任务上表现明显更好，差异超过25%。

论文比较了同属法律领域的两个子类别：法律咨询和法律法规。尽管知识领域相同，模型在法律法规上表现明显更好，Qwen 3 Max的差异超过25%。这表明知识的结构方式和任务的应用要求深刻影响模型获取和应用上下文知识的效果。

最后X曰

论文揭示了一个关键事实：长上下文推理和指令遵循是上下文学习的必要但非充分条件。在现有长上下文和指令遵循基准上的强劲表现并不能保证在CL-bench上的成功，因为上下文学习进一步要求模型内化新知识并灵活应用于复杂任务。

当前前沿模型的上下文学习能力仍然相当薄弱。这一关键学习能力值得AI社区更多关注。推进上下文学习是构建下一代语言模型的关键——使其像人类一样具备从上下文中学习、适应不断变化的上下文、并在现实世界中表现出色的能力。CL-bench为这一努力提供了关键的测试平台。

论文标题：CL-BENCH: A BENCHMARK FOR CONTEXT LEARNING
论文链接：https://arxiv.org/abs/2602.03587

Shunyu Yao 加入HY首作CL-bench：揭示大模型的关键短板

背景与核心问题

CL-bench：一个真正测试上下文学习的基准

无污染设计与严格验证

十大前沿模型的表现：令人警醒的结果

错误分析：为何模型表现不佳

推理努力与上下文长度的影响

知识类型的影响

最后X曰

7.6 容器运行时深度解析：containerd、CRI-O、Docker三种运行时对比

基于深度学习YOLOv12的森林火灾火焰烟雾识别检测系统（YOLOv12+YOLO数据集+UI界面+登录注册界面+Python项目源码+模型）

（10-1-02）模块集成与总装流程：模块化拆分与装配策略（2）电气模块

你也想转行吗？作为过来人的我希望你想清楚这几个问题再做决定

开题报告 springboot和vue 大学图书管理系统

为什么 AGI 必须能兜住人类表达——不是因为人类脆弱，而是因为表达本身如此