Perception Agents 解决真实软件里的视觉状态

Perception Agents 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Antje Barth。本文只整理会议内容和分享脉络，不做个人使用心得。

原视频：https://www.youtube.com/watch?v=4sX_He5c4sI（约 00:54:35 开始）

分享内容

Antje Barth 的分享来自 Amazon AGI Lab，主题是 Perception Agents。她开场先把过去一年的变化讲清楚：一年前，难点还是让 agent 找到按钮并点击；现在，agent 已经可以驱动浏览器，也开始驱动桌面应用。点击本身不再是最难的问题。

真正的难点是理解屏幕状态。真实软件里充满弹窗、加载态、错误提示、灰色按钮、权限阻断、表格滚动和界面刷新。人类使用软件时，会根据这些视觉变化判断任务有没有完成。agent 如果只能依赖文本描述，就会在这些地方频繁猜错。

Perception Agents 的目标，是让 agent 像人一样看见并使用电脑。它不是简单的 OCR，也不是把截图扔给视觉模型就结束。它要把界面元素、视觉位置、任务目标、操作历史和异常状态放在一起推理，然后决定下一步点击、输入或恢复。

分享里举了新员工入职这类日常流程。为新人开账号、加权限、配置系统，看起来是普通后台操作，但真实流程会跨多个应用，遇到不同状态和临时弹窗。这样的流程很难只靠 API 完成，视觉感知能力就变成 agent 进入真实工作环境的基础设施。

分享结构

这场分享的结构比较清楚：先用 Perception Agents 的问题背景引入，再把重点落到 Autoresearch 这条主线。讲者不是只给一个结论，而是把问题、机制、案例和边界分开讲，方便听众判断这个方向能不能进入真实系统。

按内容顺序看，第一层是背景：Antje Barth 的分享来自 Amazon AGI Lab，主题是 Perception Agents。她开场先把过去一年的变化讲清楚：一年前，难点还是让 agent 找到按钮并点击；现在，agent 已经可以驱动浏览器，也开始驱动桌面应用。点击本身不再是最难的问题。第二层是方法或案例：真正的难点是理解屏幕状态。真实软件里充满弹窗、加载态、错误提示、灰色按钮、权限阻断、表格滚动和界面刷新。人类使用软件时，会根据这些视觉变化判断任务有没有完成。agent 如果只能依赖文本描述，就会在这些地方频繁猜错。这两层决定了这场分享不是单纯概念介绍，而是在解释为什么这个问题现在变得重要。

第三层是工程约束：Perception Agents 的目标，是让 agent 像人一样看见并使用电脑。它不是简单的 OCR，也不是把截图扔给视觉模型就结束。它要把界面元素、视觉位置、任务目标、操作历史和异常状态放在一起推理，然后决定下一步点击、输入或恢复。这部分通常是会议分享里最值得保留的内容，因为它说明方案不是靠一句口号成立，而是靠具体环境、指标、记忆、验证或工具链支撑。

关键细节集中在后半段：分享里举了新员工入职这类日常流程。为新人开账号、加权限、配置系统，看起来是普通后台操作，但真实流程会跨多个应用，遇到不同状态和临时弹窗。这样的流程很难只靠 API 完成，视觉感知能力就变成 agent 进入真实工作环境的基础设施。这段把分享从背景介绍推进到可检查的技术抓手，也解释了为什么它会被放进 Day 2 的主舞台议程。

会议脉络

这场和 Day 2 的 autoresearch 主题有关，因为研究 agent 也要使用真实工具。它要打开实验平台、查看图表、读日志、操作网页、处理失败提示。很多工具没有给 agent 准备干净 API，最终呈现给系统的是一个变化中的 UI。

Antje 的分享把“环境”这个词具体化了。agent 的环境不只是 repo、terminal 和数据库，也包括屏幕。屏幕里的信息如果不能被稳定感知，agent 的长任务能力就会卡在演示阶段。

这场分享的结论很直接：computer use 的下一步不是只会点击，而是会看、会判断、会恢复。Perception Agents 补的不是一个漂亮功能，而是真实软件世界里缺失的眼睛。

来源说明

本文依据官方日程、YouTube 自动英文字幕和视频时间线整理。长直播中存在等待音乐、主持人口播和少量插播内容，正文只保留对应主舞台分享的有效信息。

Perception Agents 解决真实软件里的视觉状态

分享内容

分享结构

会议脉络

来源说明

相关推荐

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。