Elie Bakouch 分享 nanoGPT speedrun 里的自动研究

the era of (auto) research 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Elie Bakouch。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 03:15:05 开始）

分享内容

Elie Bakouch 的分享用 nanoGPT speedrun 作为自动研究环境。这个场景适合研究 agent，因为目标明确、规则清楚、结果可验证。agent 可以连续尝试不同优化路线，并把结果和人类 baseline 对比。

他提到每次 run 大约 15 到 20 分钟，环境有清楚规则，可以判断是否突破记录。这些条件很重要。自动研究如果没有明确指标和短反馈，很容易变成一堆无法验证的想法。speedrun 则提供了一个可爬坡的场地。

分享还比较了不同 coding agents 在研究任务里的行为，例如 Claude Code 和 Codex。重点不是给模型排一个绝对名次，而是观察它们如何探索、如何生成候选、如何处理失败、如何推进记录。把 agent 当研究者，需要看它的轨迹，而不是只看一次输出。

nanoGPT speedrun 的价值在于它把研究问题压得很小。目标不是“自动发现科学真理”，而是在一个固定约束里优化训练速度或效果。这样系统能稳定记录每次尝试，也能用硬指标判断结果。

分享结构

这场分享的结构比较清楚：先用 the era of (auto) research 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Elie Bakouch 的分享用 nanoGPT speedrun 作为自动研究环境。这个场景适合研究 agent，因为目标明确、规则清楚、结果可验证。agent 可以连续尝试不同优化路线，并把结果和人类 baseline 对比。第二层是方法或案例：他提到每次 run 大约 15 到 20 分钟，环境有清楚规则，可以判断是否突破记录。这些条件很重要。自动研究如果没有明确指标和短反馈，很容易变成一堆无法验证的想法。speedrun 则提供了一个可爬坡的场地。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：分享还比较了不同 coding agents 在研究任务里的行为，例如 Claude Code 和 Codex。重点不是给模型排一个绝对名次，而是观察它们如何探索、如何生成候选、如何处理失败、如何推进记录。把 agent 当研究者，需要看它的轨迹，而不是只看一次输出。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：nanoGPT speedrun 的价值在于它把研究问题压得很小。目标不是“自动发现科学真理”，而是在一个固定约束里优化训练速度或效果。这样系统能稳定记录每次尝试，也能用硬指标判断结果。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这场和 Richard Socher 的 Eureka Machine 形成一大一小的对应。Eureka Machine 是远景，speedrun 是今天能跑的实验沙盒。没有这种沙盒，自动研究很难从概念进入工程。

Elie 的分享也提醒，自动研究需要公开和可复现。一个 agent 声称找到了新方法并不够，方法要能运行，指标要能复查，改动要能被别人理解。这样 agent 的贡献才可能进入社区，而不是停留在内部 demo。

这场分享的实际内容是：先给 agent 一个小但真实的研究赛道，让它在里面反复尝试。记录每轮结果，比较不同 agent 行为，再逐步扩大任务范围。自动研究要从硬指标场地开始，而不是从开放式愿望开始。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

Elie Bakouch 分享 nanoGPT speedrun 里的自动研究

分享内容

分享结构

会议脉络

来源说明

相关推荐

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。