让Agent自己做科研？斯坦福团队让Claude写代码、跑实验，还能自我进化-开发者社区

代码：https://github.com/NoviScl/Automated-AI-Researcher

论文：https://arxiv.org/pdf/2601.14525

研究背景

想象一下，让AI自己提出科研想法、写代码实现、跑GPU实验验证效果，然后从结果中学习改进——这听起来像科幻小说？斯坦福团队偏偏把它做出来了。

问题痛点在哪？当前大模型虽然能生成看似合理的研究想法，但实际执行后往往效果拉胯。就像纸上谈兵，说得天花乱坠，真刀真枪上场就露馅了。之前的研究通过人类专家评审发现，LLM生成的想法虽然看着靠谱，但实际执行效果很差。

核心创新是什么？这篇论文提出了"执行落地"（Execution Grounding）的思路——不仅让AI提想法，还得让它自己把想法变成代码、跑实验、看结果、从反馈中学习。研究团队搭建了一个完整的自动化执行系统，能并行运行数百个GPU实验，真正把"想法-实现-验证-改进"这个闭环跑通了。

实验场景够硬核：他们选了两个最烧钱的AI研究方向——大模型预训练和后训练（post-training），作为AI研究员的"考场"。这可不是玩具任务，是真金白银烧GPU的实战场景。

成果有多猛？在后训练任务上，通过执行反馈的进化搜索，找到的方法把准确率从48%提升到69.4%，甚至超过了斯坦福CS336研究生课程里最强学生的方案（68.8%）。在预训练任务上，把训练时间从35.9分钟压缩到19.7分钟。虽然比人类专家的2.1分钟还有差距，但已经证明了这条路的可行性。

核心方法：搭建AI研究员的"实验室"

自动化执行系统：三大组件协同作战

整个系统分三层：

Implementer（代码实现者）：跑在CPU服务器上，接收自然语言想法，调用代码执行LLM生成代码diff文件（就是和baseline的代码差异）。为了提高成功率，它会并行生成10个版本，如果某个版本无法应用到原代码，就根据报错日志让模型自我修正，最多重试2次。成功后把打好补丁的代码打包上传。

Scheduler（调度器）：中间层，定期检查云端新提交的代码包，根据实验资源需求准备任务配置，一旦有GPU空闲就立刻分配。

Worker（执行工人）：GPU集群上的实际执行者，跑完实验后把所有训练日志、性能指标、完整元数据（想法内容、代码变更、执行日志）都上传到wandb。如果执行失败，会记录详细错误信息反馈给ideator模型。

两大研究环境：真刀真枪的考场

预训练环境（nanoGPT）：基于nanoGPT speedrun改造，任务是在FineWeb数据集上预训练一个124M参数的GPT-2模型。原始任务是最小化训练时间达到3.28验证loss，研究团队引入了"代理奖励"（proxy reward = 1/loss），固定训练时间25分钟，直接优化这个代理奖励。为了防止"刷分"，他们冻结了所有评估超参数，并实现了一个token-by-token预测函数防止模型偷看未来token。

后训练环境（GRPO）：基于GRPO算法（一种policy gradient方法），在MATH数学数据集上微调Qwen2.5-Math-1.5B模型。固定训练时间预算，用MATH验证集最高准确率作为指标。验证相关代码单独存放，不允许自动执行器修改，杜绝作弊可能。

进化搜索：探索与利用的平衡术

算法设计很巧妙（Algorithm 1）：

第一轮（Epoch 0）：采样一批全新想法作为起点

后续轮次：把想法生成拆分成两部分

利用（Exploitation）：从之前轮次里挑出表现超过baseline的好想法，让模型生成"组合它们优点的变体"
探索（Exploration）：随机采样之前的想法塞进prompt（直到context长度上限），让模型生成"完全不同的新想法"

动态调整策略：初始是50%探索+50%利用，随着轮次增加逐渐降低探索率（类似模拟退火）。批量大小：GRPO环境50个想法/轮，nanoGPT环境80个想法/轮。

强化学习：用执行结果当奖励信号

他们还尝试了更激进的玩法——直接用GRPO算法微调Qwen3-30B模型，让它生成更有效的想法。

实验设置：

每次prompt只有1个（因为每个环境只有1个任务描述）
超大group size（GRPO环境256，nanoGPT环境128）来稳定训练，对应256/1024个GPU并行跑实验
最大输出8192 tokens（包含思考过程+想法）
奖励设计：后训练环境直接用验证准确率，预训练环境用1/loss，执行失败的想法奖励为0

实验效果：惊喜与挑战并存

基准测试：执行率惊人

自我执行（Self-Execution）模式：同一个模型既提想法又写代码实现。Claude-4.5-Opus和Claude-4.5-Sonnet的执行成功率都超过90%！即使是采样50个想法，best-of-50的性能就能打败baseline。比如Claude-4.5-Sonnet在GRPO上最高达到60.4%（baseline 48%），Claude-4.5-Opus在nanoGPT上最低loss 3.237（baseline 3.255）。

交叉执行模式：不同模型提想法，GPT-5统一实现。执行率有所下降（42%-78%），但依然可观。开源模型Kimi-K2-Thinking和Qwen3-235B也能跑通相当比例的想法并超越baseline。

进化搜索：找到了，但不总是越搜越强

Claude-4.5-Opus的胜利：在两个环境上都展现出清晰的scaling趋势——搜索轮次越多，最佳性能越好。nanoGPT环境第9轮达到最低loss 3.1407，对应训练时间19.7分钟（baseline 35.9分钟）。

Claude-4.5-Sonnet的爆发：在GRPO环境上第2轮就找到69.4%准确率的方案（发现vanilla policy gradient在这个设置下比标准GRPO更好），但之后就饱和了。

GPT-5的平台期：和Sonnet类似，早期有提升但很快就不涨了。

完爆Best-of-N：

在相同采样预算下，进化搜索从第1轮开始就明显优于best-of-N，证明模型确实在利用历史轨迹生成更好的想法。

想法质量分析：不只是调参

模型	超参数想法占比	算法想法占比	最佳性能来源
GPT-5 (GRPO)	5.0%	95.0%	算法想法
Claude-4.5-Sonnet (GRPO)	41.1%	58.9%	超参数想法
Claude-4.5-Opus (GRPO)	3.7%	96.3%	算法想法

三个模型都生成了大量算法创新想法（而非单纯调参），只有Sonnet的超参数想法占比较高且效果最好。看几个真实案例（详见Table 3）：

Claude-4.5-Opus的数学范儿：“Residual Ratio Learning with Momentum Bounds” —— 把importance sampling ratio分解成基础分量（batch均值的EMA）和残差分量，只对残差做sigmoid约束，允许基础分量捕捉系统性策略漂移。准确率61.6%。

Claude-4.5-Sonnet的直觉派：“Dynamic Mathematical Problem Difficulty Balancing” —— 根据最近表现动态调整问题难度分布，表现好时增加难题比例，困难时多给基础题。准确率64.0%。

GPT-5的分块思路：“Token-Level Ratio De-noising via Response Chunks” —— 把response tokens分成C个chunks，用chunk平均的log-ratio替代per-token值来降噪。准确率58.2%。

意外发现：模型在没有任何RAG的情况下，多次生成了和近三个月内发表论文高度相似的想法！比如Sonnet提出的"response diversity rewards"和Li et al. (2025)几乎一致，Opus提出的"Causal Context Compression"对应Allen-Zhu (2025)的"canon layer"。

强化学习：均值上去了，峰值没动

好消息：平均奖励确实在涨。GRPO环境从0.253升到0.343（40个epoch后），nanoGPT环境从0.194升到0.246（68个epoch后）。

坏消息：最大奖励在波动，没有上升趋势。对于科研创新来说，我们更在乎有没有一个breakthrough idea，而不是平均水平提高。

深层原因分析：

思考链崩溃：训练过程中思考(thinking trace)长度急剧下降，想法长度基本不变。分析发现，思考越长的想法执行成功率越低（可能因为更复杂），所以模型学会了"偷懒"——少想多执行。
多样性崩塌：

模型收敛到几个简单好用的想法上。nanoGPT环境里，初始51/128个想法是"换LayerNorm"或"做EMA"，训练结束时这个比例变成119/128。典型的mode collapse。

探索不足：标准GRPO只激励提高平均奖励，没有鼓励探索机制。模型找到几个稳定得分的套路后就不再冒险尝试新想法了。

救场尝试（未遂）：研究团队试过添加历史轨迹、加权长度奖励、相似度惩罚等方法，但初期效果不明显就早停了（详见附录A.1）。

论文总结

这篇论文做了一件很酷的事：把AI科研从"纸上谈兵"变成"实战演练"。他们搭建的自动化执行系统能让LLM真正把想法跑通、拿到结果、从反馈中学习。进化搜索证明这条路走得通——10轮搜索就能找到比baseline强很多的方案，甚至超过研究生课程的最佳学生作业。但也暴露了问题：除了Claude-4.5-Opus，其他模型很快就到瓶颈；强化学习更是只能提高平均分，最高分反而不涨，因为模型学会了抄近路、搞重复。说白了，现在的AI研究员更像个"熟练调参工"而非"算法创新者"，离真正的科研自主还有距离。但第一步已经迈出去了，剩下的就是怎么让AI不偷懒、多创新的问题了。

让Agent自己做科研？斯坦福团队让Claude写代码、跑实验，还能自我进化

研究背景