Tereza Tizkova 的 “Rise of the Software Factory” 是这一天的核心演讲之一。她直接把误区点出来:software factory 不是一个 coding agent,而是自主软件开发的完整生命周期。
原视频:https://www.youtube.com/watch?v=htM02KMNZnk
工厂是一整条生命周期
她开场说,大家都在谈 software factory,但真正建的人很少。她给出的定义不是 “让 agent 写代码”,而是从任务进入,到上下文准备、模型选择、执行、验证、review、部署、监控和反馈的一整条 loop。
这个定义很关键。很多团队现在以为,接入一个 coding agent,或者让 Claude Code/Codex 能改 repo,就算开始建软件工厂。Tereza 的说法更接近真实工程:工厂不是工人,工厂是让工人稳定产出、检查质量、处理异常的系统。
她展示 Factory 的 dashboard,强调它要抓住整个 cycle。也就是说,agent 做了什么、卡在哪里、用了什么模型、花了多少成本、结果有没有通过验证,都应该在同一个系统里可见。
模型路由不是锦上添花
她提到一个实际问题:不要默认把所有任务都推给 frontier model。不同任务需要不同模型。简单重复任务用便宜模型可能更合适,复杂 reasoning 再用强模型。缓存、prefill、预算上限、结果可见性,都是工厂层面的设计。
这不是后端优化小技巧,而是软件工厂能不能规模化的前提。如果每个任务都烧最贵模型,成本会先压垮你。如果每个任务都用便宜模型,质量又会不稳定。工厂要做的是路由,而不是迷信单一模型。
她还强调,software factory 的核心不是 agent 数量,而是闭环。offline loop 负责构建和测试 agent,online loop 负责 agent 上线后的 trace、诊断和持续改进。
和字节实践的互相印证
我读这场时想到本地知识库里字节 AI Coding 的实践。字节的结论很硬:AI 代码贡献率很高,不代表交付效率等比例提升。TRAE 团队 90% 以上代码由 AI 写,人均需求吞吐只提升 1.6 倍,远低于 “AI 写码速度” 给人的直觉。
差距在哪里?在可交付性。字节通过上下文工程、架构约束、团队知识沉淀进 memory、技术债梳理,把可交付性从 40-60 分拉到 80 分左右。换句话说,真正提升不在单次生成,而在 harness 基建。
Tereza 的软件工厂也是这个方向。模型会写代码只是入门。你还要知道哪些任务能自动化,哪些要人审,哪些测试能挡住坏结果,哪些权限不能给 agent。
所以,软件工厂的难点不是机器会不会写,而是这条流水线有没有质量控制。
agent-ready 不是口号,是基础设施清单
Tereza 的演讲之所以重要,是因为她把 software factory 从愿景拉回基础设施。很多公司说自己要用 agent,但仓库结构、API、权限、CI/CD、日志、回滚都还没有为 agent 准备好。
她的描述里,agent 像员工一样需要身份、权限、记忆、审计轨迹和升级路径。这不是拟人化噱头,而是生产系统的基本要求。没有身份,就不知道谁做了什么;没有权限边界,就无法控制风险;没有审计轨迹,就无法复盘;没有升级路径,agent 卡住时只会乱试。
持久 computer use 是分水岭
她提到 persistent computer use,这是软件工厂从 demo 走向生产的关键。agent 如果每一步都像一次性聊天,就很难处理复杂任务。真实任务需要稳定环境:文件还在、状态还在、依赖还在、日志还在,中途失败后还能恢复。
这也解释了为什么简单聊天框不够。聊天框适合问答,不适合长期工程任务。软件工厂需要工作区、沙箱、凭证、任务队列、执行 trace 和人类接管点。
组织差距会被放大
Tereza 引用了 AI 领先者和落后者之间的生产力差距。我的理解是,AI 不会自动缩小组织差距,反而可能放大。流程清楚、接口稳定、测试可靠的团队,会让 agent 更快工作;流程混乱的团队,会让 agent 更快撞墙。
所以,软件工厂不是买来就能跑的机器。它更像一次组织体检。你让 agent 进入系统,它会立刻暴露哪些文档没人维护、哪些测试不可信、哪些权限太粗、哪些流程只靠老人记忆。
来源与说明
本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息,以及本地 AI engineering 知识库整理。文章不是逐字稿,而是按单场分享的主线、上下文和工程启发重写。






