Evals Track Intro 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台,讲者是 Laurie Voss, Aparna Dhinakaran。本文只整理会议内容和分享脉络,不做个人使用心得。
原视频:https://www.youtube.com/watch?v=4sX_He5c4sI(约 01:36:50 开始)
分享内容
Evals Track Intro 是一段很短的主舞台串场,但内容位置很重要。前面几场谈探索型模型、验证、视觉感知和研究视角,这里把话题收束到 eval:agent 系统如果要进入真实工作流,评估就不能停留在几条静态 prompt。
传统 eval 更像打分表。给模型一组问题,看回答是否正确,最后得到一个分数。agent 系统复杂得多,它有工具调用、记忆、环境状态、长任务轨迹和失败恢复。只看最终回答,已经不能解释系统到底做对了什么、错在什么地方。
Aparna Dhinakaran 所代表的 Arize 一直围绕 observability 和 eval 做工具。放到会议语境里,这意味着 eval 正在进入生产系统。生产里的每次用户交互、每条 trace、每次人工修正、每次失败回滚,都可以变成下一轮评估材料。
这也是 autoresearch 能不能成立的关键。研究 agent 会不断生成新假设和新实验,如果没有 eval,系统无法判断哪条路线值得保留。eval 是把候选结果筛成经验的机制。
分享结构
这场分享的结构比较清楚:先用 Evals Track Intro 的问题背景引入,再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论,而是把问题、机制、案例和边界分开讲,方便听众判断这个方向能不能进入真实系统。
按内容顺序看,第一层是背景:Evals Track Intro 是一段很短的主舞台串场,但内容位置很重要。前面几场谈探索型模型、验证、视觉感知和研究视角,这里把话题收束到 eval:agent 系统如果要进入真实工作流,评估就不能停留在几条静态 prompt。 第二层是方法或案例:传统 eval 更像打分表。给模型一组问题,看回答是否正确,最后得到一个分数。agent 系统复杂得多,它有工具调用、记忆、环境状态、长任务轨迹和失败恢复。只看最终回答,已经不能解释系统到底做对了什么、错在什么地方。 这两层决定了这场分享不是单纯概念介绍,而是在解释为什么这个问题现在变得重要。
第三层是工程约束:Aparna Dhinakaran 所代表的 Arize 一直围绕 observability 和 eval 做工具。放到会议语境里,这意味着 eval 正在进入生产系统。生产里的每次用户交互、每条 trace、每次人工修正、每次失败回滚,都可以变成下一轮评估材料。 这部分通常是会议分享里最值得保留的内容,因为它说明方案不是靠一句口号成立,而是靠具体环境、指标、记忆、验证或工具链支撑。
关键细节集中在后半段:这也是 autoresearch 能不能成立的关键。研究 agent 会不断生成新假设和新实验,如果没有 eval,系统无法判断哪条路线值得保留。eval 是把候选结果筛成经验的机制。 这段把分享从背景介绍推进到可检查的技术抓手,也解释了为什么它会被放进 Day 2 的主舞台议程。
会议脉络
短 intro 的价值在于提醒听众:评估不是最后写报告时做的事情,而是 agent loop 的一部分。没有持续评估,agent 每次运行都像重新开始;有了持续评估,失败案例才能回到数据集,成功路径才能被复用。
这条线和 Day 1 的软件工厂也能接上。软件工厂强调从需求到代码再到上线反馈,Evals Track 则强调上线后的反馈怎样回到系统。对于 agent 产品,eval 已经不是研究团队内部指标,而是产品可靠性的组成部分。
这段分享虽然短,但给后面的会议内容定了一个检查标准:任何声称能自动研究、自动优化、自动协作的系统,都需要说明它怎么评估自己的轨迹和结果。
来源说明
本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容,正文只保留对应主舞台分享的有效信息。







