news 2026/3/21 22:06:13

GPT 已经会“做科研”了吗?OpenAI 最新 FrontierScience 论文给出了真实答案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPT 已经会“做科研”了吗?OpenAI 最新 FrontierScience 论文给出了真实答案

结论先行:
大模型已经是世界级“做题家”,
但距离真正像博士一样做科研,还有一整代差距。

最近 OpenAI 放出了一篇不算太“热搜”,但在 AI 圈子里非常重磅的论文:

FrontierScience:Evaluating AI’s Ability to Perform Expert-Level Scientific Tasks

如果你只看模型发布会,你可能会觉得:

GPT-5 已经快接近“通用科学家”了。

但如果你认真读完这篇论文,只会得出一个更冷静、也更真实的结论:

AI 非常擅长解决“高难度科学问题”,
但在“真正做科研”这件事上,还远远不够。

这篇文章,我用工程师 + AI 从业者视角,给你完整拆解这篇论文在说什么,以及它真正想表达的东西。

一、为什么 OpenAI 要重新做一个“科学 Benchmark”?

先说一个很多人忽略的事实:

现有的科学类 Benchmark,已经被大模型刷爆了

比如:

  • MMLU

  • GPQA

  • ScienceQA

这些基准最初的目的,是验证模型有没有“科学推理能力”。
但问题是:

  • 大多是选择题

  • 或者是已知知识问答

  • 本质上仍然是“会不会考试”

结果就是:

模型分数越来越高,但你心里很清楚——
它真的能帮你做科研吗?

OpenAI 这篇论文的出发点其实非常直接:

我们需要一个评估:
模型能不能完成“专家级科学工作”,
而不是“考得好不好”。


二、FrontierScience 到底在测什么?

这套 Benchmark 只有一个核心目标:

区分“会解题”和“会做研究”

所以他们直接把评测拆成了两个完全不同的轨道。


三、第一条赛道:Olympiad(专家级解题能力)

这是什么?

一句话概括:

国际奥赛级别的科学题,但是为大模型量身定做的

特点非常狠:

  • 难度 ≥ IPhO / IChO / IBO

  • 所有题目全新原创

  • 出题人全是:

    • 国际奥赛金牌得主

    • 国家队教练

而且为了防止“背题”:

  • 如果 OpenAI 内部模型能直接做出来

  • 题目会被直接作废重写

考察的是什么?

  • 严谨推理

  • 多步计算

  • 数学 / 物理 / 化学建模能力


模型表现如何?

结果很炸,但也在意料之中:

  • GPT-5.2:77%

  • Gemini 3 Pro:76%

已经接近“专家级解题水平”

如果你只看到这一组结果,很容易得出结论:

GPT 已经快能当科学家了

但别急,真正的重头戏还在后面。


四、真正的核心:Research 轨道(科研能力)

如果说 Olympiad 是“做题”,
Research 才是“做研究”


Research 轨道在干什么?

每一道题,本质上都是:

一个博士在科研过程中会遇到的“研究子问题”

不是选择题,不是算数题,而是:

  • 如何拆解问题

  • 如何选择方法

  • 中间推导是否合理

  • 假设是否站得住脚

论文里明确写了:

人类专家完成一道 Research 题,通常需要 3–5 小时


关键创新:用 Rubric 给科研打分

科研不是对错题,所以他们用了一个很聪明的办法:

10 分制 Rubric 评分

比如:

  • 写出关键方程:2 分

  • 解释物理意义:1.5 分

  • 识别主要限制条件:1 分

  • 最终结论合理:2 分

≥7 分 = 成功完成研究子任务

评分不是人来打,而是:

  • 用 GPT-5 当裁判

  • 严格按照 Rubric,不允许“主观加分”


那模型在 Research 上表现如何?

直接给结论:

全部模型都不及格

模型Research 得分
GPT-5.225%
GPT-525%
Gemini 3 Pro~22%

也就是说:

100 个研究子问题,模型只能靠谱完成 25 个


五、这说明了什么?(重点)

这组结果其实非常诚实,也非常重要:

AI 已经是“世界级做题家”

  • 高难度

  • 强约束

  • 有标准答案的问题
    👉 表现极强

但 AI 还不是“研究者”

在 Research 任务中,模型常见问题包括:

  • 推理链中途断裂

  • 对冷门概念理解错误

  • 假设看似合理,实际不成立

  • 自信地给出错误结论

一句话总结就是:

AI 会推理,但缺乏科研中的判断力


六、这篇论文最有价值的地方在哪?

不是那几个分数,而是它明确划了一条线

“解题能力 ≠ 科研能力”

这对整个 AI 行业非常重要。

以后再有人说:

  • “大模型已经能自动做科研了”

  • “AI 很快就能替代科学家”

你只需要问一句:

FrontierScience Research 跑了多少分?


七、对工程师和 AI 从业者的启示

1️⃣ 别把模型当“科学家”,要当“科研加速器”

  • 文献综述

  • 初步推导

  • 假设生成
    非常强

2️⃣ 真正难的是“研究闭环”

  • 多轮假设

  • 实验验证

  • 修正方向
    这是当前模型最弱的地方

3️⃣ 未来方向已经很清晰

  • Agent + 工具

  • 长程规划

  • 与真实实验系统闭环


八、最后一句话总结

FrontierScience 告诉我们:
GPT 已经站在“专家解题”的天花板,
但距离“真正的科学研究者”,
还差一个完整的科研能力体系。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/17 17:32:59

从无效沟通到首通成交:B2B拓客的秘密武器曝光

在B2B销售的过程里,真正花费最多时间的事情并非讨论方案内容,而是要寻找到那个正确的对接人,这是相当耗费精力的。不知道你是否也曾有过如同以下这样的经历?当你拨打1688平台上标注为“厂家”的电话时,电话是由客服接通的&#x…

作者头像 李华
网站建设 2026/3/19 21:46:21

百万年薪密码:AI测试架构师能力矩阵全解析

AI测试时代的架构师价值‌ 随着机器学习模型、智能推荐系统、自动驾驶、AIoT等复杂智能应用成为软件生态的主流,软件测试的边界、复杂度和技术栈发生了质的飞跃。传统的手工测试和基于脚本的自动化测试在面对海量数据、非线性逻辑、持续演化的模型和模糊的“正确性…

作者头像 李华
网站建设 2026/3/20 0:54:56

6010BZ10000过程自动化模块

6010BZ10000 过程自动化模块是一款用于工业控制系统的功能模块,通常用于 ABB MOD 300 系列或类似机架式系统中。它主要用于过程控制和自动化任务,是工业自动化系统中关键的执行或监控单元之一。主要功能执行过程自动化控制任务接收和处理传感器或输入模…

作者头像 李华