代码:https://github.com/NoviScl/Automated-AI-Researcher
论文:https://arxiv.org/pdf/2601.14525
研究背景
想象一下,让AI自己提出科研想法、写代码实现、跑GPU实验验证效果,然后从结果中学习改进——这听起来像科幻小说?斯坦福团队偏偏把它做出来了。
问题痛点在哪?当前大模型虽然能生成看似合理的研究想法,但实际执行后往往效果拉胯。就像纸上谈兵,说得天花乱坠,真刀真枪上场就露馅了。之前的研究通过人类专家评审发现,LLM生成的想法虽然看着靠谱,但实际执行效果很差。
核心创新是什么?这篇论文提出了"执行落地"(Execution Grounding)的思路——不仅让AI提想法,还得让它自己把想法变成代码、跑实验、看结果、从反馈中学习。研究团队搭建了一个完整的自动化执行系统,能并行运行数百个GPU实验,真正把"想法-实现-验证-改进"这个闭环跑通了。
实验场景够硬核:他们选了两个最烧钱的AI研究方向——大模型预训练和后训练(post-training),作为AI研究员的"考场"。这可不是玩具任务,是真金白银烧GPU的实战场景。
成果有多猛?在后训练任务上,通过执行反馈的进化搜索,找到的方法把准确率从48%提升到69.4%,甚至超过了斯坦福CS336研究生课程里最强学生的方案(68.8%)。在预训练任务上,把训练时间从35.9分钟压缩到19.7分钟。虽然比人类专家的2.1分钟还有差距,但已经证明了这条路的可行性。
相关工作
AutoML老前辈们
自动化机器学习(AutoML)领域早就在探索类似思路了。神经架构搜索(NAS)通过强化学习或搜索算法,在预定义的操作空间里找最优网络结构。最近也有团队尝试让LLM直接提议架构变体并实现验证。但这些工作通常有两个局限:一是搜索空间受限(只能在预定义的操作集合里选),二是关注点更偏工程调参而非算法创新。
LLM研究助手新秀们
AI-Scientist、AI-Researcher这些端到端的研究智能体已经能完成从想法生成到实现的全流程,但它们没有深入研究如何从执行反馈中学习提升想法质量。另一边,MLE-Bench、RE-Bench这类基准测试关注的是机器学习工程任务(feature engineering、调参为主),而本文针对的是更开放的算法研发问题。
代码执行反馈的启发
代码生成领域已经验证了执行反馈的价值——模型可以根据代码运行结果改进生成质量。这篇论文把这个思路迁移到科研想法生成上,但挑战更大:验证成本更高(要跑完整的训练实验),反馈信号也更复杂。
核心方法:搭建AI研究员的"实验室"
自动化执行系统:三大组件协同作战
整个系统分三层:
Implementer(代码实现者):跑在CPU服务器上,接收自然语言想法,调用代码执行LLM生成代码diff文件(就是和baseline的代码差异)。为了提高成功率,它会并行生成10个版本,如果某个版本无法应用到原代码,就根据报错日志让模型自我修正,最多重试2次。成功后把打好补丁的代码打包上传。
Scheduler(调度器):中间层,定期检查云端新提交的代码包,根据实验资源需求准备任务配置,一旦有GPU空闲就立刻分配。
Worker(执行工人):GPU集群上的实际执行者,跑完实验后把所有训练日志、性能指标、完整元数据(想法内容、代码变更、执行日志)都上传到wandb。如果执行失败,会记录详细错误信息反馈给ideator模型。
两大研究环境:真刀真枪的考场
预训练环境(nanoGPT):基于nanoGPT speedrun改造,任务是在FineWeb数据集上预训练一个124M参数的GPT-2模型。原始任务是最小化训练时间达到3.28验证loss,研究团队引入了"代理奖励"(proxy reward = 1/loss),固定训练时间25分钟,直接优化这个代理奖励。为了防止"刷分",他们冻结了所有评估超参数,并实现了一个token-by-token预测函数防止模型偷看未来token。
后训练环境(GRPO):基于GRPO算法(一种policy gradient方法),在MATH数学数据集上微调Qwen2.5-Math-1.5B模型。固定训练时间预算,用MATH验证集最高准确率作为指标。验证相关代码单独存放,不允许自动执行器修改,杜绝作弊可能。
进化搜索:探索与利用的平衡术
算法设计很巧妙(Algorithm 1):
第一轮(Epoch 0):采样一批全新想法作为起点
后续轮次:把想法生成拆分成两部分
- 利用(Exploitation):从之前轮次里挑出表现超过baseline的好想法,让模型生成"组合它们优点的变体"
- 探索(Exploration):随机采样之前的想法塞进prompt(直到context长度上限),让模型生成"完全不同的新想法"
动态调整策略:初始是50%探索+50%利用,随着轮次增加逐渐降低探索率(类似模拟退火)。批量大小:GRPO环境50个想法/轮,nanoGPT环境80个想法/轮。
强化学习:用执行结果当奖励信号
他们还尝试了更激进的玩法——直接用GRPO算法微调Qwen3-30B模型,让它生成更有效的想法。
实验设置:
- 每次prompt只有1个(因为每个环境只有1个任务描述)
- 超大group size(GRPO环境256,nanoGPT环境128)来稳定训练,对应256/1024个GPU并行跑实验
- 最大输出8192 tokens(包含思考过程+想法)
- 奖励设计:后训练环境直接用验证准确率,预训练环境用1/loss,执行失败的想法奖励为0
实验效果:惊喜与挑战并存
基准测试:执行率惊人
自我执行(Self-Execution)模式:同一个模型既提想法又写代码实现。Claude-4.5-Opus和Claude-4.5-Sonnet的执行成功率都超过90%!即使是采样50个想法,best-of-50的性能就能打败baseline。比如Claude-4.5-Sonnet在GRPO上最高达到60.4%(baseline 48%),Claude-4.5-Opus在nanoGPT上最低loss 3.237(baseline 3.255)。
交叉执行模式:不同模型提想法,GPT-5统一实现。执行率有所下降(42%-78%),但依然可观。开源模型Kimi-K2-Thinking和Qwen3-235B也能跑通相当比例的想法并超越baseline。
进化搜索:找到了,但不总是越搜越强
Claude-4.5-Opus的胜利:在两个环境上都展现出清晰的scaling趋势——搜索轮次越多,最佳性能越好。nanoGPT环境第9轮达到最低loss 3.1407,对应训练时间19.7分钟(baseline 35.9分钟)。
Claude-4.5-Sonnet的爆发:在GRPO环境上第2轮就找到69.4%准确率的方案(发现vanilla policy gradient在这个设置下比标准GRPO更好),但之后就饱和了。
GPT-5的平台期:和Sonnet类似,早期有提升但很快就不涨了。
完爆Best-of-N:
在相同采样预算下,进化搜索从第1轮开始就明显优于best-of-N,证明模型确实在利用历史轨迹生成更好的想法。
想法质量分析:不只是调参
| 模型 | 超参数想法占比 | 算法想法占比 | 最佳性能来源 |
|---|---|---|---|
| GPT-5 (GRPO) | 5.0% | 95.0% | 算法想法 |
| Claude-4.5-Sonnet (GRPO) | 41.1% | 58.9% | 超参数想法 |
| Claude-4.5-Opus (GRPO) | 3.7% | 96.3% | 算法想法 |
三个模型都生成了大量算法创新想法(而非单纯调参),只有Sonnet的超参数想法占比较高且效果最好。看几个真实案例(详见Table 3):
Claude-4.5-Opus的数学范儿:“Residual Ratio Learning with Momentum Bounds” —— 把importance sampling ratio分解成基础分量(batch均值的EMA)和残差分量,只对残差做sigmoid约束,允许基础分量捕捉系统性策略漂移。准确率61.6%。
Claude-4.5-Sonnet的直觉派:“Dynamic Mathematical Problem Difficulty Balancing” —— 根据最近表现动态调整问题难度分布,表现好时增加难题比例,困难时多给基础题。准确率64.0%。
GPT-5的分块思路:“Token-Level Ratio De-noising via Response Chunks” —— 把response tokens分成C个chunks,用chunk平均的log-ratio替代per-token值来降噪。准确率58.2%。
意外发现:模型在没有任何RAG的情况下,多次生成了和近三个月内发表论文高度相似的想法!比如Sonnet提出的"response diversity rewards"和Li et al. (2025)几乎一致,Opus提出的"Causal Context Compression"对应Allen-Zhu (2025)的"canon layer"。
强化学习:均值上去了,峰值没动
好消息:平均奖励确实在涨。GRPO环境从0.253升到0.343(40个epoch后),nanoGPT环境从0.194升到0.246(68个epoch后)。
坏消息:最大奖励在波动,没有上升趋势。对于科研创新来说,我们更在乎有没有一个breakthrough idea,而不是平均水平提高。
深层原因分析:
思考链崩溃:训练过程中思考(thinking trace)长度急剧下降,想法长度基本不变。分析发现,思考越长的想法执行成功率越低(可能因为更复杂),所以模型学会了"偷懒"——少想多执行。
多样性崩塌:
模型收敛到几个简单好用的想法上。nanoGPT环境里,初始51/128个想法是"换LayerNorm"或"做EMA",训练结束时这个比例变成119/128。典型的mode collapse。
- 探索不足:标准GRPO只激励提高平均奖励,没有鼓励探索机制。模型找到几个稳定得分的套路后就不再冒险尝试新想法了。
救场尝试(未遂):研究团队试过添加历史轨迹、加权长度奖励、相似度惩罚等方法,但初期效果不明显就早停了(详见附录A.1)。
论文总结
这篇论文做了一件很酷的事:把AI科研从"纸上谈兵"变成"实战演练"。他们搭建的自动化执行系统能让LLM真正把想法跑通、拿到结果、从反馈中学习。进化搜索证明这条路走得通——10轮搜索就能找到比baseline强很多的方案,甚至超过研究生课程的最佳学生作业。但也暴露了问题:除了Claude-4.5-Opus,其他模型很快就到瓶颈;强化学习更是只能提高平均分,最高分反而不涨,因为模型学会了抄近路、搞重复。说白了,现在的AI研究员更像个"熟练调参工"而非"算法创新者",离真正的科研自主还有距离。但第一步已经迈出去了,剩下的就是怎么让AI不偷懒、多创新的问题了。