GPT 已经会“做科研”了吗？OpenAI 最新 FrontierScience 论文给出了真实答案-开发者社区

结论先行：
大模型已经是世界级“做题家”，
但距离真正像博士一样做科研，还有一整代差距。

最近 OpenAI 放出了一篇不算太“热搜”，但在 AI 圈子里非常重磅的论文：

FrontierScience：Evaluating AI’s Ability to Perform Expert-Level Scientific Tasks

如果你只看模型发布会，你可能会觉得：

GPT-5 已经快接近“通用科学家”了。

但如果你认真读完这篇论文，只会得出一个更冷静、也更真实的结论：

AI 非常擅长解决“高难度科学问题”，
但在“真正做科研”这件事上，还远远不够。

这篇文章，我用工程师 + AI 从业者视角，给你完整拆解这篇论文在说什么，以及它真正想表达的东西。

一、为什么 OpenAI 要重新做一个“科学 Benchmark”？

先说一个很多人忽略的事实：

现有的科学类 Benchmark，已经被大模型刷爆了

比如：

MMLU
GPQA
ScienceQA

这些基准最初的目的，是验证模型有没有“科学推理能力”。
但问题是：

大多是选择题
或者是已知知识问答
本质上仍然是“会不会考试”

结果就是：

模型分数越来越高，但你心里很清楚——
它真的能帮你做科研吗？

OpenAI 这篇论文的出发点其实非常直接：

我们需要一个评估：
模型能不能完成“专家级科学工作”，
而不是“考得好不好”。

二、FrontierScience 到底在测什么？

这套 Benchmark 只有一个核心目标：

区分“会解题”和“会做研究”

所以他们直接把评测拆成了两个完全不同的轨道。

三、第一条赛道：Olympiad（专家级解题能力）

这是什么？

一句话概括：

国际奥赛级别的科学题，但是为大模型量身定做的

特点非常狠：

难度 ≥ IPhO / IChO / IBO
所有题目全新原创
出题人全是：
- 国际奥赛金牌得主
- 国家队教练

而且为了防止“背题”：

如果 OpenAI 内部模型能直接做出来
题目会被直接作废重写

考察的是什么？

严谨推理
多步计算
数学 / 物理 / 化学建模能力

模型表现如何？

结果很炸，但也在意料之中：

GPT-5.2：77%
Gemini 3 Pro：76%

已经接近“专家级解题水平”

如果你只看到这一组结果，很容易得出结论：

GPT 已经快能当科学家了

但别急，真正的重头戏还在后面。

四、真正的核心：Research 轨道（科研能力）

如果说 Olympiad 是“做题”，
那Research 才是“做研究”。

Research 轨道在干什么？

每一道题，本质上都是：

一个博士在科研过程中会遇到的“研究子问题”

不是选择题，不是算数题，而是：

如何拆解问题
如何选择方法
中间推导是否合理
假设是否站得住脚

论文里明确写了：

人类专家完成一道 Research 题，通常需要 3–5 小时

关键创新：用 Rubric 给科研打分

科研不是对错题，所以他们用了一个很聪明的办法：

10 分制 Rubric 评分

比如：

写出关键方程：2 分
解释物理意义：1.5 分
识别主要限制条件：1 分
最终结论合理：2 分

≥7 分 = 成功完成研究子任务

评分不是人来打，而是：

用 GPT-5 当裁判
严格按照 Rubric，不允许“主观加分”

那模型在 Research 上表现如何？

直接给结论：

全部模型都不及格

模型	Research 得分
GPT-5.2	25%
GPT-5	25%
Gemini 3 Pro	~22%

也就是说：

100 个研究子问题，模型只能靠谱完成 25 个

五、这说明了什么？（重点）

这组结果其实非常诚实，也非常重要：

AI 已经是“世界级做题家”

高难度
强约束
有标准答案的问题
👉 表现极强

但 AI 还不是“研究者”

在 Research 任务中，模型常见问题包括：

推理链中途断裂
对冷门概念理解错误
假设看似合理，实际不成立
自信地给出错误结论

一句话总结就是：

AI 会推理，但缺乏科研中的判断力

六、这篇论文最有价值的地方在哪？

不是那几个分数，而是它明确划了一条线：

“解题能力 ≠ 科研能力”

这对整个 AI 行业非常重要。

以后再有人说：

“大模型已经能自动做科研了”
“AI 很快就能替代科学家”

你只需要问一句：

FrontierScience Research 跑了多少分？

七、对工程师和 AI 从业者的启示

1️⃣ 别把模型当“科学家”，要当“科研加速器”

文献综述
初步推导
假设生成
非常强

2️⃣ 真正难的是“研究闭环”

多轮假设
实验验证
修正方向
这是当前模型最弱的地方

3️⃣ 未来方向已经很清晰

Agent + 工具
长程规划
与真实实验系统闭环

八、最后一句话总结

FrontierScience 告诉我们：
GPT 已经站在“专家解题”的天花板，
但距离“真正的科学研究者”，
还差一个完整的科研能力体系。

从无效沟通到首通成交：B2B拓客的秘密武器曝光

在B2B销售的过程里，真正花费最多时间的事情并非讨论方案内容，而是要寻找到那个正确的对接人，这是相当耗费精力的。不知道你是否也曾有过如同以下这样的经历?当你拨打1688平台上标注为“厂家”的电话时，电话是由客服接通的&#x…

李华

百万年薪密码：AI测试架构师能力矩阵全解析

AI测试时代的架构师价值‌ 随着机器学习模型、智能推荐系统、自动驾驶、AIoT等复杂智能应用成为软件生态的主流，软件测试的边界、复杂度和技术栈发生了质的飞跃。传统的手工测试和基于脚本的自动化测试在面对海量数据、非线性逻辑、持续演化的模型和模糊的“正确性…

李华

【收藏】大模型薪资太香了！小白/程序员零基础入门指南+全套资料免费领

作为深耕技术圈十余年、常年盯紧职场风向的老程序员，我有个职业敏感度培养习惯——每隔一段时间就会去Boss直聘等招聘平台，深挖大模型相关岗位的招聘动态。每次点开薪资详情页，都忍不住感叹：这薪资梯队，真有种想穿越回…

李华

【行业深度】RPA + AI Agent：从“按键精灵”到“认知型机器人”的技术跃迁

作者：林焱（RPA自动化架构师 / AI应用开发者）一、传统RPA的“阿喀琉斯之踵”在很长一段时间里，RPA（机器人流程自动化）在技术圈的鄙视链里处于底端。很多人认为它就是高级版的“按键精灵”——写死的坐标、写…

李华

高端网站设计 | 门户网站设计：兰亭妙微 UI 设计赋能中国科协，让科技期刊集群 “破圈发光”

当科技期刊 “单刊弱、散刊多” 的行业困局遇上数字化转型浪潮，当科研资源整合与国际传播的需求双向叠加 —— 兰亭妙微的 UI 设计，正以 “高端网站门户网站” 的双维能力，为中国科协打造出 “学术科协（CAST Scholar&#xff09…

李华

6010BZ10000过程自动化模块

6010BZ10000 过程自动化模块是一款用于工业控制系统的功能模块，通常用于 ABB MOD 300 系列或类似机架式系统中。它主要用于过程控制和自动化任务，是工业自动化系统中关键的执行或监控单元之一。主要功能执行过程自动化控制任务接收和处理传感器或输入模…

李华