OpenAI 的 Alexander Embiricos 和 Romain Huet 讲 “The Golden Age of AI Engineering”。这场不只是模型能力展示,它更像 OpenAI 对 Codex 和 AI engineering 的一次重新定位:agent 不只写代码,它开始接管内层执行 loop。
原视频:https://www.youtube.com/watch?v=htM02KMNZnk
速度变快以后,瓶颈会移动
他们提到一个很有代表性的变化:过去 OpenAI 大约 15 个月发布一个新模型系列,现在大约 6 周就会有明显更新。这个数字本身有宣传味,但它指向一个真实感受:模型能力的迭代速度已经快到产品和组织跟不上。
当模型每隔几周就变强一点,工程师的重点就不能只放在 “下一个模型会不会更会写代码”。更重要的问题是:产品和工作流能不能吸收这些能力。模型更强,如果仍然被锁在聊天框里,收益会被浪费掉。
他们讲 Codex 时,把它放在几层结构里。底层是模型和 Responses API。上层是 Codex app、goal mode、remote workflows,以及开发者可以扩展的层。OpenAI 自己也用同一套模型和 API 构建 Codex,而不是靠一套内部专用黑箱。
这句话背后的含义是:Codex 不只是 OpenAI 的一个产品,也是一种外层接口。开发者使用的模型、API、app、remote 环境,和 OpenAI 内部构建 Codex 的材料越来越接近。
从紧张 demo 到模型能自测
他们回顾了一个很具体的例子。2024 年 Dev Day 上,模型还不能真正运行代码、验证自己的工作。演示一个 mini drone interface 时,人要在现场赌模型生成的代码能跑,speaker 自己也承认很紧张。
到了后面,他们说已经可以让模型测试自己的工作,甚至控制完整的 camera system 和 lighting system。这个转变比 “代码写得更漂亮” 更重要。因为一旦模型能运行、观察、修复,它就开始进入真正的执行 loop。
这和本地知识库里 Karpathy 的三层框架对得上:spec、harness、verification。模型负责内层执行,工程师负责目标、约束、验证和取舍。生成代码不再是最稀缺的环节。能不能把任务放进一个可靠 loop,才是差距。
Codex 的争议点也在这里
转录里有一段提到 Codex app 一开始是有争议的项目。这个很正常。因为它挑战了开发者对 IDE、terminal、repo、review 的既有边界。
传统工具默认人是执行者,AI 是补全器。Codex app 的方向更像:人提出目标,agent 在一个受控环境里跑任务,最后带回 issue、diff、测试结果、运行 build 或视频证据。人不再消费每一个中间 token,而是在外层做决定。
这不是说工程师不用看代码。恰恰相反,工程师更需要看对的东西:spec 是否清楚,权限是否正确,测试是否覆盖,diff 是否越界,结果是否能证明。人从内层打字,移到外层审计。
如果只把 Codex 理解成 “OpenAI 的 coding agent”,会低估它。更准确地说,Codex 是 OpenAI 给软件工厂准备的一个工作界面。它让模型从回答者变成执行者,也迫使工程师重新定义自己的位置。
Codex 的重点是把工作交给一个环境
这场 OpenAI 分享的关键,不在于模型又会写多少代码,而在于 Codex 把 agent 放进了更完整的工程环境里。它能看文件、改代码、运行命令、检查结果,并把过程交还给人。
这和传统 autocomplete 的差别很大。Autocomplete 在你打字时补下一段,它站在内层;Codex 更像接收一个任务,然后在外层工作。它需要理解 repo,需要知道测试怎么跑,需要能解释自己做了什么,也需要在不确定时回到人这里。
这里的“outer loop”很重要。人不再只是敲每个 token,而是设定目标、边界和验收标准。agent 在 loop 里做执行,人负责判断 loop 是否走在正确方向上。
好用的 Codex 不是靠一句神 prompt
如果一个团队想把 Codex 用好,不能只研究 prompt 技巧。更重要的是给它一个清楚的工作场。
比如仓库里要有明确的开发命令,测试要能在本地跑,错误信息要可读,任务要能拆小,代码风格要有自动检查,重要目录要有说明。否则 agent 会把大量时间花在猜测上,最后产出一个看似完整但很难验证的 diff。
Codex 这类工具会让工程组织的成熟度被放大。成熟仓库会更快受益,因为 agent 能顺着已有流程工作;混乱仓库会暴露更多问题,因为 agent 不会替你发明可靠流程。
人的位置变了,但没有消失
我不认同“agent 会让工程师不用懂代码”的说法。恰恰相反,工程师要更懂什么是好任务、好边界、好验证。过去你写代码时能靠手感纠错,现在 agent 速度更快,错误也会更快进入系统。
所以人的价值不是消失,而是从局部执行转向全局判断。你不必亲手打出每一行,但你必须知道这次改动是否值得做、是否越权、是否可回滚、是否能证明正确。这就是 Codex 这场对第一天主题的贡献:软件工厂不是无人驾驶,而是把人的注意力放到更高价值的位置。
来源与说明
本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息,以及本地 AI engineering 知识库整理。文章不是逐字稿,而是按单场分享的主线、上下文和工程启发重写。






