news 2026/4/15 17:24:26

AI能力进化还在狂飙!Epoch数据洞察打破人们对AI进化减缓的预期

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI能力进化还在狂飙!Epoch数据洞察打破人们对AI进化减缓的预期

Epoch AI最新发布的监测数据显示,AI能力进化还在狂飙。

这与METR的时间跨度基准(Time Horizon benchmark)得出的加速结论遥相呼应。

2024年4月,全球AI综合能力的增长速率在这一刻暴涨了90%。同年10月,METR的时间跨度基准出现40%加速。

在过去的两年里,AI模型在Epoch能力指数(Epoch Capabilities Index,ECI)上的得分增长速度,几乎是此前两年的两倍。

为了提供更多数据,Epoch包含了2023年前的模型,但当时基准分数相对稀少。排除这些数据,核心结论依然坚如磐石:我们正处在AI的加速坡道上。

这种剧烈的非线性跃升,打破了人们对于技术进步通常呈现S型曲线末端边际效应递减的预期。

这两组独立数据的共振揭示:随着推理模型(Reasoning Models)的崛起和强化学习(RL)在顶级实验室的普及,我们正处于一个新的加速周期之中。

Epoch AI与METR

在AI日新月异的今天,如何公平地衡量一个模型的智力,其难度不亚于制造模型本身。

Epoch AI是一家非营利性研究机构,专注于预测和跟踪AI的发展轨迹。

他们不直接开发大模型,而是作为第三方的裁判员,致力于用严谨的数据和统计学方法,为AI的进步建立坐标系。

其资金来源于Open Philanthropy等慈善机构,这保证了其研究的独立性和客观性。

METR(Model Evaluation and Threat Research,原ARC Evals)是一个专注于AI安全评估的研究组织,更侧重于从安全和自主性角度评估AI。

他们的核心关注点不是AI知道什么,而是AI能独立做什么以及能做多久。

这两个机构推出的核心指标——Epoch Capabilities Index (ECI)METR Time Horizon,正是目前能够捕捉到这波技术加速浪潮的精密仪器。

ECI:AI能力的罗塞塔石碑

Epoch Capabilities Index (ECI) 是为了解决AI评估界的一个顽疾:基准测试的通货膨胀与碎片化。

在过去,一个新出的基准测试(如MMLU)往往在几个月内就会被模型刷爆——得分迅速接近100%,从而失去区分度。这导致我们无法用同一套试卷去衡量跨度几年的模型。

ECI引入了心理测量学中的项目反应理论(Item Response Theory, IRT),这是一种通常用于人类标准化考试(如GRE、SAT)的统计学框架。

统一难度坐标:IRT假设存在一个潜在的能力变量。它不再单纯看分数的绝对值,而是通过分析模型在不同难度题目上的表现,推算出模型在这一潜在能力轴上的位置。

基准缝合(Stitching):ECI将39个截然不同的基准测试缝合在了一起。无论是一个简单的Python编程题,还是FrontierMath中那些连数学教授都要解几小时的难题,都被映射到了同一个难度标尺上。

抗饱和设计:当简单的基准被刷爆饱和后,ECI会自动依赖更难的基准来提供区分度。这就像是一个自适应的考试系统,题太简单了就自动换难题,确保永远能测出考生的真实上限。

通过这种方法,ECI成功地将从2023年至今的126个模型、1103个评分数据点整合成了一条连续的能力曲线,让我们得以窥见AI进化的全貌。

ECI底层汇聚了39个极具代表性的基准测试。

这些测试涵盖了数学、代码、科学问答、甚至通过终端操作计算机的能力。还包括了从逻辑推理(ARC-AGI)、代码多语言能力(Aider Polyglot)、到长文本理解(L-Series)的全方位测试。

ECI正是通过综合这些五花八门的测试结果,剥离了单一测试的偶然性,提炼出了那个名为通用智能的核心变量。

METR Time Horizon:衡量自主性的维度

ECI衡量的是智力的高度,METR的Time Horizon(时间跨度)衡量的是智力的耐力。

METR Time Horizon 的定义非常直观且具有冲击力:一个AI模型能够在不需要人类干预的情况下,以50%的成功率独立完成的任务,其对应的人类专家耗时是多少?

2023年初的模型,可能只能独立完成人类几分钟就能做完的简单脚本编写。

2024年的顶尖模型,已经开始向独立完成人类需要数小时甚至数天才能完成的复杂软件工程任务发起冲击。

2024年10月观测到的40%加速,正是AI从助手(Chatbot)向代理(Agent)蜕变的动力。

这种能力的提升,直接来源于模型在长逻辑链条上的稳定性增强——这正是推理模型(Reasoning Models)的核心优势。

当模型学会了三思而后行(Chain of Thought)和自我反思,它就能在长时间的任务中保持航向,不再轻易迷失。

ECI的数据洞察告诉我们:AI的能力提升不仅没有触顶,反而在换挡加速。

随着推理能力的解锁和强化学习的深入,我们正在见证智能系统从博学向精深,从瞬间反应向长时思考的跨越。

参考资料:

https://epoch.ai/benchmarks/eci

https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up

https://x.com/YafahEdelman/status/2002871018193670556

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/9 13:20:12

数据和 AI 的关系

数据和 AI 的关系可以用一句话总结:没有数据,就没有 AI;数据决定 AI 的能力上限,算法只是逼近这个上限。下面从 本质、作用、阶段、质量影响、未来趋势 5 个层面给出最清晰的理解🔹 1️⃣ 本质关系:数据是“…

作者头像 李华
网站建设 2026/4/15 15:45:19

【无人机三维路径规划】基于A_Satr结合天牛算法BAS野外环境下考虑模态切换点优化的3D路径规划附Matlab代码和报告

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码获取及仿真…

作者头像 李华
网站建设 2026/4/3 2:35:29

告别无效调用:高效实现 AI Agent 的 Function 交互设计

做 Agent 之前,彻底搞懂 AI 的 Function Calling / Tools 上篇(链接如上)我们解决了一个问题:让 AI 按你说的格式,老老实实返回 JSON。 现在这件事你已经会干了: 用户说:「我想查上海的天气」AI 乖乖返回:{…

作者头像 李华
网站建设 2026/4/1 1:30:18

智能喂食器:云计算赋能宠物科技

在家庭自动化与物联网技术爆发的当下,智能宠物喂食器已从 “小众刚需” 升级为 “科技生活标配”。这款集成了硬件控制、传感器感知、远程通信与云端协同的智能设备,本质是云计算与物联网深度融合的典型落地场景—— 它不仅解决了宠物主人 “远程喂饭” …

作者头像 李华
网站建设 2026/4/13 2:54:20

5MW风电永磁直驱发电机-1200V直流并网Simulink仿真模型

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

作者头像 李华