news 2026/3/5 17:32:45

【LLM】CL-bench:评估LLM学新知识的能力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【LLM】CL-bench:评估LLM学新知识的能力

note

  • CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。
  • CL-bench 揭示了一个不能被忽视的现象:当今的前沿语言模型还仍然不会利用 context ,从 context 中学习。

文章目录

  • note
  • 一、CL-bench覆盖的内容
  • 二、CL-bench设计原则
  • 三、CL-bench评估结果
  • Reference

一、CL-bench覆盖的内容

1、CL-bench 涵盖了四种广泛的现实世界 context 学习场景:

领域知识推理: context 中提供特定的领域知识(例如 虚构的法律体系、创新的金融工具或小众专业知识)。模型需要利用这些知识来推理并解决具体问题。

规则系统应用: context 中提供新定义的正式系统(例如 新的游戏机制、数学形式体系、编程语法或技术标准)。模型必须理解并应用这些规则来执行任务。

程序性任务执行: context 中提供复杂的过程系统(例如 工作流、产品手册和操作指南)。模型必须理解并应用这些程序性信息来完成任务。

经验发现与模拟: context 中提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同,这一类专注于归纳推理,也是最具挑战性的。模型必须从数据中发现潜在的定律或结论,并应用它们来解决任务。

二、CL-bench设计原则

CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。

三、CL-bench评估结果

结果揭示了当前模型几乎不能从复杂 context 中学习来解决真实场景的问题。实验也解释了一些更有趣的发现。平均而言,模型仅解决了 17.2% 的任务。即便是表现最好的模型 GPT-5.1 (High),也仅达到了 23.7%。换句话说,尽管 context 中拥有解决每个任务所需的全部信息,模型在绝大多数任务上都失败了。这表明当前最前沿的模型几乎不会从 context 中学习。

Reference

[1] https://hy.tencent.com/research/100025?langVersion=zh

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/4 2:36:52

C++之【深入理解Vector】三部曲之二

前言:我们已经理解了vector的初始化和迭代器初始化,那么接下来要继续深入理解vector,它是如何扩容的,空间及数据个数是如何存储的。 vector空间增长问题 容量空间接口说明size获取数据个数capacity获取容量大小empty判断是否为空…

作者头像 李华
网站建设 2026/3/4 4:12:45

港科校友|李铭鸿,李泓曦:一脉相承

以信任和爱作为家庭的基石,校友李铭鸿Thomas和儿子李泓曦Conan先后踏上科大的教育之路,体现了大学一直培养的探索精神与独特个性。Conan全心投入本科学习,而父母灌输给他的自由、幸福和相互尊重的价值观继续引导着他,展示了科大一…

作者头像 李华
网站建设 2026/3/4 4:06:14

ava面试速成版,背这份八股文(含答案)就对了!

别再拿旧资料瞎准备了!看看我们这份联合2025-2026届成功入职头部企业的12位准大厂人,深挖近3个月一线互联网、科技公司的真实面经反馈、核心考察重点,把大厂面试官的提问逻辑、评分标准、高频考点全拆解,耗时打磨出这份「最新大厂…

作者头像 李华
网站建设 2026/3/4 2:25:32

NAS的大内存有必要吗?到底需不需要 SSD 缓存?核心逻辑一次讲清

NAS的大内存有必要吗?到底需不需要 SSD 缓存?核心逻辑一次讲清 哈喽小伙伴们好,我是Stark-C~ 前段时间有个粉丝在我的推荐下入手了极空间Z4Pro ,当时的好价仅需两千出头,确实挺划算的,只不过到手的是8GB内…

作者头像 李华
网站建设 2026/3/4 5:03:11

橙色工作汇报PPT模板

扫描下载文档详情页: https://www.didaidea.com/wenku/16415.html

作者头像 李华
网站建设 2026/3/4 1:19:45

本地搭建 Clawdbot + ZeroNews 访问

最近,一个名为 ClawdBot(现已更名 OpenClaw) 的项目在技术圈引起了广泛讨论。许多人称其为“真正能做实事的 AI”、“个人 AI 助理的未来形态”。它不仅仅是一个聊天机器人,更是一个能够接入日常工作、生活,直接在用户…

作者头像 李华