OpenAI 把 Codex 放进外层工作流

OpenAI 的 Alexander Embiricos 和 Romain Huet 讲 “The Golden Age of AI Engineering”。这场不只是模型能力展示，它更像 OpenAI 对 Codex 和 AI engineering 的一次重新定位：agent 不只写代码，它开始接管内层执行 loop。

原视频：https://www.youtube.com/watch?v=htM02KMNZnk

速度变快以后，瓶颈会移动

他们提到一个很有代表性的变化：过去 OpenAI 大约 15 个月发布一个新模型系列，现在大约 6 周就会有明显更新。这个数字本身有宣传味，但它指向一个真实感受：模型能力的迭代速度已经快到产品和组织跟不上。

当模型每隔几周就变强一点，工程师的重点就不能只放在 “下一个模型会不会更会写代码”。更重要的问题是：产品和工作流能不能吸收这些能力。模型更强，如果仍然被锁在聊天框里，收益会被浪费掉。

他们讲 Codex 时，把它放在几层结构里。底层是模型和 Responses API。上层是 Codex app、goal mode、remote workflows，以及开发者可以扩展的层。OpenAI 自己也用同一套模型和 API 构建 Codex，而不是靠一套内部专用黑箱。

这句话背后的含义是：Codex 不只是 OpenAI 的一个产品，也是一种外层接口。开发者使用的模型、API、app、remote 环境，和 OpenAI 内部构建 Codex 的材料越来越接近。

从紧张 demo 到模型能自测

他们回顾了一个很具体的例子。2024 年 Dev Day 上，模型还不能真正运行代码、验证自己的工作。演示一个 mini drone interface 时，人要在现场赌模型生成的代码能跑，speaker 自己也承认很紧张。

到了后面，他们说已经可以让模型测试自己的工作，甚至控制完整的 camera system 和 lighting system。这个转变比 “代码写得更漂亮” 更重要。因为一旦模型能运行、观察、修复，它就开始进入真正的执行 loop。

这和本地知识库里 Karpathy 的三层框架对得上：spec、harness、verification。模型负责内层执行，工程师负责目标、约束、验证和取舍。生成代码不再是最稀缺的环节。能不能把任务放进一个可靠 loop，才是差距。

Codex 的争议点也在这里

转录里有一段提到 Codex app 一开始是有争议的项目。这个很正常。因为它挑战了开发者对 IDE、terminal、repo、review 的既有边界。

传统工具默认人是执行者，AI 是补全器。Codex app 的方向更像：人提出目标，agent 在一个受控环境里跑任务，最后带回 issue、diff、测试结果、运行 build 或视频证据。人不再消费每一个中间 token，而是在外层做决定。

这不是说工程师不用看代码。恰恰相反，工程师更需要看对的东西：spec 是否清楚，权限是否正确，测试是否覆盖，diff 是否越界，结果是否能证明。人从内层打字，移到外层审计。

如果只把 Codex 理解成 “OpenAI 的 coding agent”，会低估它。更准确地说，Codex 是 OpenAI 给软件工厂准备的一个工作界面。它让模型从回答者变成执行者，也迫使工程师重新定义自己的位置。

Codex 的重点是把工作交给一个环境

这场 OpenAI 分享的关键，不在于模型又会写多少代码，而在于 Codex 把 agent 放进了更完整的工程环境里。它能看文件、改代码、运行命令、检查结果，并把过程交还给人。

这和传统 autocomplete 的差别很大。Autocomplete 在你打字时补下一段，它站在内层；Codex 更像接收一个任务，然后在外层工作。它需要理解 repo，需要知道测试怎么跑，需要能解释自己做了什么，也需要在不确定时回到人这里。

这里的“outer loop”很重要。人不再只是敲每个 token，而是设定目标、边界和验收标准。agent 在 loop 里做执行，人负责判断 loop 是否走在正确方向上。

好用的 Codex 不是靠一句神 prompt

如果一个团队想把 Codex 用好，不能只研究 prompt 技巧。更重要的是给它一个清楚的工作场。

比如仓库里要有明确的开发命令，测试要能在本地跑，错误信息要可读，任务要能拆小，代码风格要有自动检查，重要目录要有说明。否则 agent 会把大量时间花在猜测上，最后产出一个看似完整但很难验证的 diff。

Codex 这类工具会让工程组织的成熟度被放大。成熟仓库会更快受益，因为 agent 能顺着已有流程工作；混乱仓库会暴露更多问题，因为 agent 不会替你发明可靠流程。

人的位置变了，但没有消失

我不认同“agent 会让工程师不用懂代码”的说法。恰恰相反，工程师要更懂什么是好任务、好边界、好验证。过去你写代码时能靠手感纠错，现在 agent 速度更快，错误也会更快进入系统。

所以人的价值不是消失，而是从局部执行转向全局判断。你不必亲手打出每一行，但你必须知道这次改动是否值得做、是否越权、是否可回滚、是否能证明正确。这就是 Codex 这场对第一天主题的贡献：软件工厂不是无人驾驶，而是把人的注意力放到更高价值的位置。

来源与说明

本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息，以及本地 AI engineering 知识库整理。文章不是逐字稿，而是按单场分享的主线、上下文和工程启发重写。

事件分析

从技术实现角度看，该项目采用了“视觉重构”的思路，利用模型能力解构AI生成的图像并将其还原为结构化的文档对象，打破了非结构化图像与可编辑文档之间的壁垒。这标志着AIGC在办公领域的应用正从单纯的内容生成向“工程化落地”迈进，解决了AI生成内容难以集成到现有工作流中的痛点。其“先生成效果图、后逆向还原”的策略，平衡了生成质量与编辑灵活性，为AI Agent在复杂文档处理任务中的落地提供了极具价值的参考范式。

💡 核心观点：突破视觉美感与编辑性的矛盾，该项目展示了AI办公工具从“生成图片”向“还原工程文件”进化的关键路径。

事件分析

SharkTTY 的出现反映了移动办公场景下对“沉浸式远程体验”的特定需求，尤其是针对 Apple 生态内部的互联优化。现有的 iOS 远程桌面方案大多是对传统 PC 逻辑的直接移植，未能有效解决触摸屏与高精度 GUI 操作之间的割裂感。该项目通过重构鼠标放大机制和软键盘布局，展示了在非原生输入设备上进行精细化操作的可能性。从技术架构看，其基于 iCloud Keychain 的本地化凭证存储策略符合零信任安全趋势，有效规避了云端数据泄露风险。同时，该产品契合了“Vibe Coding”这一新兴趋势，即追求随时随地、低负担的编程状态，将 iPad 从单纯的消费内容设备转变为具备实际生产力属性的临时工作站。尽管其生态目前主要局限于 Apple 设备间互联，但这种针对垂直场景的深度体验优化，对于提升移动端开发工具的可用性具有积极示范意义。

💡 核心观点：SharkTTY 填补了 iPad 生产力短板，将触控设备转化为高效的移动开发终端。

事件分析

该开源项目展示了大模型在个人知识管理领域的典型应用范式，即从单纯的“信息搬运”转向“信息提炼”。技术上，它结合了传统的 RSS 爬虫技术与 LLM 的自然语言处理能力，构建了一套低成本的内容生成管线。这种架构有效降低了海量信息筛选的认知负荷，标志着个人助手类工具正从简单的列表罗列进化为具备归纳能力的智能体。对于开发者社区而言，此类工具的普及反映了“AI 原生”应用的一种趋势：利用模型能力重塑传统工作流。该项目采用 Docker 部署并适配常见邮箱服务，降低了部署门槛，有利于在技术圈子内传播，为个人打造私有的 AI 信息中台提供了可落地的参考模板。

💡 核心观点：利用大模型对传统RSS流进行二次清洗与提炼，标志着个人情报获取方式正从被动接收向智能聚合的“AI流”进化。

事件分析

该案例生动展示了AI智能体在处理复杂C++遗留代码时的辅助效能。通过自然语言交互，开发者无需深入阅读全部源码即可定位到PeerData等关键逻辑层级，这显著降低了客户端逆向工程和二次开发的门槛。这种“描述需求-代码分析-测试反馈”的闭环开发模式，体现了AI编程工具从简单的代码补全向逻辑推理与系统分析方向的进化。对于开源社区而言，这意味未来将有更多非专业开发者能够利用AI对现有软件进行个性化改造，从而推动开源生态的多样化和定制化发展。

💡 核心观点：AI智能体正将普通用户转化为具备定制能力的开发者，大幅降低了客户端软件个性化修改的技术门槛。

事件分析

从技术架构与风控层面分析，该事件揭示了 SaaS 服务的“状态一致性”问题。OpenAI 的订阅验证可能采用了软状态机制，即后端扣费失败或订阅到期时，前端的鉴权系统并未立即阻断服务访问，从而产生了“宽限期”。这种设计通常是为了避免因网络抖动或支付延迟导致的误伤，但显然被灰产利用。对于通过“成品号”获客的用户，这往往是 OpenAI 批量清理行动前的静默期。长期来看，OpenAI 极大概率会通过账期校验进行回溯封禁。该事件不仅体现了大模型服务在商业化过程中的计费鲁棒性问题，也折射出当前 AI 付费市场中，官方高价与灰产低价之间的博弈现状。

💡 核心观点：ChatGPT 计费系统存在鉴权滞后，'逾期未停' 现象暴露了 SaaS 服务在灰产对抗中的缓冲漏洞。

事件分析

该讨论折射出当前AI编程工具市场的分层现状。一方面，以DeepSeek、GLM为代表的国产大模型凭借极致的性价比和本地化部署优势，正在大规模渗透开发者市场，缓解了因海外模型API高额费用及账号封禁风险带来的焦虑。另一方面，在IDE深度集成、复杂逻辑推理及精准代码修正等高阶场景中，Claude Code和OpenAI o1/Claude 3.5 Sonnet等模型仍凭借强大的基座能力占据统治地位。技术上的差距可能源于训练数据中代码语料的质量与占比、模型对上下文窗口的利用效率以及工具调用的稳定性。随着国产模型在DeepSeek-R1等推理模型上的突破，这种差距正在迅速缩小，但短期内“高端自用、低端降本”或将成为开发者的常态策略。

💡 核心观点：国产大模型在通用能力上已大幅追赶，但在复杂代码生成与IDE深度交互场景下，与Claude等顶尖模型仍存在显著体验代差，成本倒逼开发者寻找替代方案成为当前常态。

OpenAI 把 Codex 放进外层工作流

速度变快以后，瓶颈会移动

从紧张 demo 到模型能自测

Codex 的争议点也在这里

Codex 的重点是把工作交给一个环境

好用的 Codex 不是靠一句神 prompt

人的位置变了，但没有消失

来源与说明

相关推荐

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

开源新方案：将AI生成的图片型PPT转化为可编辑文档

事件分析

SharkTTY：让 iPad 变身高效远程开发终端，支持多屏与 Vibe Coding

事件分析

开源项目利用大模型将每日RSS与GitHub热点自动投递至邮箱

事件分析

开发者实战：利用AI智能体修改Telegram源码，屏蔽“辣眼睛”头像

事件分析

ChatGPT Plus订阅过期仍可用？计费系统现漏洞，灰产账号获额外延长

事件分析

开发者实测：国产大模型能否替代Claude Code？编程场景下的体验差距探讨

事件分析

最新文章

热门专题

热门标签

网站统计

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。