the era of (auto) research 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台,讲者是 Elie Bakouch。本文只整理会议内容和分享脉络,不做个人使用心得。
原视频:https://www.youtube.com/watch?v=4sX_He5c4sI(约 03:15:05 开始)
分享内容
Elie Bakouch 的分享用 nanoGPT speedrun 作为自动研究环境。这个场景适合研究 agent,因为目标明确、规则清楚、结果可验证。agent 可以连续尝试不同优化路线,并把结果和人类 baseline 对比。
他提到每次 run 大约 15 到 20 分钟,环境有清楚规则,可以判断是否突破记录。这些条件很重要。自动研究如果没有明确指标和短反馈,很容易变成一堆无法验证的想法。speedrun 则提供了一个可爬坡的场地。
分享还比较了不同 coding agents 在研究任务里的行为,例如 Claude Code 和 Codex。重点不是给模型排一个绝对名次,而是观察它们如何探索、如何生成候选、如何处理失败、如何推进记录。把 agent 当研究者,需要看它的轨迹,而不是只看一次输出。
nanoGPT speedrun 的价值在于它把研究问题压得很小。目标不是“自动发现科学真理”,而是在一个固定约束里优化训练速度或效果。这样系统能稳定记录每次尝试,也能用硬指标判断结果。
分享结构
这场分享的结构比较清楚:先用 the era of (auto) research 的问题背景引入,再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论,而是把问题、机制、案例和边界分开讲,方便听众判断这个方向能不能进入真实系统。
按内容顺序看,第一层是背景:Elie Bakouch 的分享用 nanoGPT speedrun 作为自动研究环境。这个场景适合研究 agent,因为目标明确、规则清楚、结果可验证。agent 可以连续尝试不同优化路线,并把结果和人类 baseline 对比。 第二层是方法或案例:他提到每次 run 大约 15 到 20 分钟,环境有清楚规则,可以判断是否突破记录。这些条件很重要。自动研究如果没有明确指标和短反馈,很容易变成一堆无法验证的想法。speedrun 则提供了一个可爬坡的场地。 这两层决定了这场分享不是单纯概念介绍,而是在解释为什么这个问题现在变得重要。
第三层是工程约束:分享还比较了不同 coding agents 在研究任务里的行为,例如 Claude Code 和 Codex。重点不是给模型排一个绝对名次,而是观察它们如何探索、如何生成候选、如何处理失败、如何推进记录。把 agent 当研究者,需要看它的轨迹,而不是只看一次输出。 这部分通常是会议分享里最值得保留的内容,因为它说明方案不是靠一句口号成立,而是靠具体环境、指标、记忆、验证或工具链支撑。
关键细节集中在后半段:nanoGPT speedrun 的价值在于它把研究问题压得很小。目标不是“自动发现科学真理”,而是在一个固定约束里优化训练速度或效果。这样系统能稳定记录每次尝试,也能用硬指标判断结果。 这段把分享从背景介绍推进到可检查的技术抓手,也解释了为什么它会被放进 Day 2 的主舞台议程。
会议脉络
这场和 Richard Socher 的 Eureka Machine 形成一大一小的对应。Eureka Machine 是远景,speedrun 是今天能跑的实验沙盒。没有这种沙盒,自动研究很难从概念进入工程。
Elie 的分享也提醒,自动研究需要公开和可复现。一个 agent 声称找到了新方法并不够,方法要能运行,指标要能复查,改动要能被别人理解。这样 agent 的贡献才可能进入社区,而不是停留在内部 demo。
这场分享的实际内容是:先给 agent 一个小但真实的研究赛道,让它在里面反复尝试。记录每轮结果,比较不同 agent 行为,再逐步扩大任务范围。自动研究要从硬指标场地开始,而不是从开放式愿望开始。
来源说明
本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容,正文只保留对应主舞台分享的有效信息。







