news 2026/7/1 22:26:31

加入腾讯的姚顺雨发表首篇Paper!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
加入腾讯的姚顺雨发表首篇Paper!

Datawhale学术

论文发表:姚顺雨,来源:PaperAgent

  • 2025.12.17 姚顺雨正式出任出任腾讯CEO / 总裁办公室首席 AI 科学家;兼任 AI Infra 部、大语言模型部负责人。

  • 2026.1.10 在 AGI-Next 前沿峰会上首秀亮相:做应用不仅需要强大的模型能力,还需要较长context(上下文/语境)

回到最近,腾讯混元&复旦联合发表的论文中《CL-bench》,姚顺雨也署名了!

CL-bench:A benchmark for Context Learning

CL-bench地址:

1. https://www.clbench.com/

2. https://github.com/Tencent-Hunyuan/CL-bench

3. https://huggingface.co/datasets/tencent/CL-bench

当然不是只挂名哦,姚顺雨(Shunyu Yao)全面而细致的审阅和反馈,极大地提升了这项工作的质量。

一、CL-BENCH价值

现有评测

痛点

静态知识问答(MMLU、C-Eval)

模型只靠预训练“老本”

长文档理解(LongBench、L-Eval)

考的是“找答案”,不是“学知识”

In-Context Learning(ICL)

只给几个样例,学的是“格式”而非“新知”

CL-BENCH 首次把“现学现卖”单独拎出来考

给一段全新、复杂、领域性强的上下文(最长 65 k tokens),再出 1~12 道必须依赖这段新知才能解的题目。

模型如果偷懒用预训练知识,几乎必挂(ablation 显示任务通过率 <1%)。

图 1:现学现卖 vs 传统 prompt 推理

二、CL-bench设计原则

CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的

解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。

解决CL-bench 中的任务需要模型从相应的 context 中学习新知识。

三、四大题型,18 个子类

考卷长啥样?

CL-bench 示例。解决这些任务要求语言模型从提供的 context 中学习。

图 3:上下文分类学

四、评分机制——“全或无”

每道题配套 10~20 条可自动判定的细项 rubric(格式、事实、计算、逻辑…)。

只有全部 rubric 通过才算 1 分,否则 0 分——彻底杜绝“差不多”。

表 4:LM-as-Judge 的 system prompt(节选)

Score = 1:学生答案必须**完美**满足 rubric 中**每一条**要求 Score = 0:只要有 1 条不满足

五、10 个前沿模型集体“翻车”

表 2:10 款模型全量结果

关键发现

  1. inductive ≪ deductive:需要“从数据归纳规律”的 Empirical Discovery 平均仅 11.8 %,比前三类低 6 个百分点。

  2. 长度即杀手:32 k tokens 以上文本,所有模型得分腰斩。

  3. 推理档位≠灵丹妙药:GPT-5.2 把推理从“low”拉到“high”,反而掉 5.6 %,暴露长链逻辑与指令跟随的失衡。

六、错误画像——模型都在怎么“偷懒”?

表 3:不同模型错误分布

一句话总结

CL-BENCH 像一场“闭卷速读+现场实操”的残酷考试,告诉咱们:现学现卖仍是下一代大模型最缺的通用能力

把这篇论文加入你的阅读清单,一起把模型逼成“10 分钟就能上手新业务”的超级打工人!

一起“赞”三连

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/1 12:59:06

年会可以不开,年终奖不能缩水

又到年底&#xff0c;各家芯片公司的年会通知陆续发出来了。场地订在五星级酒店&#xff0c;舞台灯光音响一应俱全&#xff0c;老板上台讲话慷慨激昂&#xff0c;说今年业绩超预期&#xff0c;明年目标更宏伟。但散会之后呢&#xff1f;大家该996还是996。这事其实挺值得琢磨的…

作者头像 李华
网站建设 2026/7/1 12:59:07

Neo4j图数据库在社交网络分析中的实战应用

Neo4j图数据库在社交网络分析中的实战应用 关键词:Neo4j、图数据库、社交网络分析、Cypher查询、图算法、社区发现、中心性分析 摘要:社交网络数据具有高连接性、动态性和多维度属性等特征,传统关系型数据库在处理复杂关联查询时效率低下。本文以Neo4j图数据库为核心,系统讲…

作者头像 李华
网站建设 2026/7/1 20:55:06

深度学习项目训练环境:完整开发环境搭建与实战

深度学习项目训练环境&#xff1a;完整开发环境搭建与实战 你是否经历过这样的场景&#xff1a;下载了一个深度学习项目&#xff0c;满怀期待地准备复现效果&#xff0c;结果卡在第一步——环境配置&#xff1f;装了三天CUDA、PyTorch版本对不上、依赖冲突报错满屏、ModuleNot…

作者头像 李华
网站建设 2026/7/1 13:10:16

一键部署RMBG-2.0:发丝级抠图实战体验(附效果对比)

一键部署RMBG-2.0&#xff1a;发丝级抠图实战体验&#xff08;附效果对比&#xff09; 1. 为什么这次抠图体验让我重新相信“开箱即用” 上周给电商客户做主图优化&#xff0c;临时需要处理87张模特图——头发飘在风里、薄纱裙摆半透明、耳坠反光边缘模糊。我打开PS&#xff…

作者头像 李华
网站建设 2026/7/1 12:59:23

新手必看:雯雯的后宫-造相Z-Image-瑜伽女孩模型快速入门

新手必看&#xff1a;雯雯的后宫-造相Z-Image-瑜伽女孩模型快速入门 你是否试过输入一段文字&#xff0c;几秒钟后就生成一张高清、自然、富有氛围感的瑜伽女孩图片&#xff1f;不是千篇一律的模板图&#xff0c;而是有光影、有呼吸感、有生活温度的作品——身形匀称、马尾轻扬…

作者头像 李华