Tereza Tizkova 说软件工厂不是 coding agent

Tereza Tizkova 的 “Rise of the Software Factory” 是这一天的核心演讲之一。她直接把误区点出来：software factory 不是一个 coding agent，而是自主软件开发的完整生命周期。

原视频：https://www.youtube.com/watch?v=htM02KMNZnk

工厂是一整条生命周期

她开场说，大家都在谈 software factory，但真正建的人很少。她给出的定义不是 “让 agent 写代码”，而是从任务进入，到上下文准备、模型选择、执行、验证、review、部署、监控和反馈的一整条 loop。

这个定义很关键。很多团队现在以为，接入一个 coding agent，或者让 Claude Code/Codex 能改 repo，就算开始建软件工厂。Tereza 的说法更接近真实工程：工厂不是工人，工厂是让工人稳定产出、检查质量、处理异常的系统。

她展示 Factory 的 dashboard，强调它要抓住整个 cycle。也就是说，agent 做了什么、卡在哪里、用了什么模型、花了多少成本、结果有没有通过验证，都应该在同一个系统里可见。

模型路由不是锦上添花

她提到一个实际问题：不要默认把所有任务都推给 frontier model。不同任务需要不同模型。简单重复任务用便宜模型可能更合适，复杂 reasoning 再用强模型。缓存、prefill、预算上限、结果可见性，都是工厂层面的设计。

这不是后端优化小技巧，而是软件工厂能不能规模化的前提。如果每个任务都烧最贵模型，成本会先压垮你。如果每个任务都用便宜模型，质量又会不稳定。工厂要做的是路由，而不是迷信单一模型。

她还强调，software factory 的核心不是 agent 数量，而是闭环。offline loop 负责构建和测试 agent，online loop 负责 agent 上线后的 trace、诊断和持续改进。

和字节实践的互相印证

我读这场时想到本地知识库里字节 AI Coding 的实践。字节的结论很硬：AI 代码贡献率很高，不代表交付效率等比例提升。TRAE 团队 90% 以上代码由 AI 写，人均需求吞吐只提升 1.6 倍，远低于 “AI 写码速度” 给人的直觉。

差距在哪里？在可交付性。字节通过上下文工程、架构约束、团队知识沉淀进 memory、技术债梳理，把可交付性从 40-60 分拉到 80 分左右。换句话说，真正提升不在单次生成，而在 harness 基建。

Tereza 的软件工厂也是这个方向。模型会写代码只是入门。你还要知道哪些任务能自动化，哪些要人审，哪些测试能挡住坏结果，哪些权限不能给 agent。

所以，软件工厂的难点不是机器会不会写，而是这条流水线有没有质量控制。

agent-ready 不是口号，是基础设施清单

Tereza 的演讲之所以重要，是因为她把 software factory 从愿景拉回基础设施。很多公司说自己要用 agent，但仓库结构、API、权限、CI/CD、日志、回滚都还没有为 agent 准备好。

她的描述里，agent 像员工一样需要身份、权限、记忆、审计轨迹和升级路径。这不是拟人化噱头，而是生产系统的基本要求。没有身份，就不知道谁做了什么；没有权限边界，就无法控制风险；没有审计轨迹，就无法复盘；没有升级路径，agent 卡住时只会乱试。

持久 computer use 是分水岭

她提到 persistent computer use，这是软件工厂从 demo 走向生产的关键。agent 如果每一步都像一次性聊天，就很难处理复杂任务。真实任务需要稳定环境：文件还在、状态还在、依赖还在、日志还在，中途失败后还能恢复。

这也解释了为什么简单聊天框不够。聊天框适合问答，不适合长期工程任务。软件工厂需要工作区、沙箱、凭证、任务队列、执行 trace 和人类接管点。

组织差距会被放大

Tereza 引用了 AI 领先者和落后者之间的生产力差距。我的理解是，AI 不会自动缩小组织差距，反而可能放大。流程清楚、接口稳定、测试可靠的团队，会让 agent 更快工作；流程混乱的团队，会让 agent 更快撞墙。

所以，软件工厂不是买来就能跑的机器。它更像一次组织体检。你让 agent 进入系统，它会立刻暴露哪些文档没人维护、哪些测试不可信、哪些权限太粗、哪些流程只靠老人记忆。

来源与说明

本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息，以及本地 AI engineering 知识库整理。文章不是逐字稿，而是按单场分享的主线、上下文和工程启发重写。

事件分析

此次DDR3价格倒挂并非单纯的商业投机，而是全球半导体制造业因AI算力竞赛而重构的缩影。技术看点在于，存储晶圆厂的产能具有排他性，当高利润的HBM和先进DRAM产能满载时，成熟制程产线被迫关停或转产，导致存量市场出现物理性缺货。产业影响方面，这将深远改变工控与嵌入式设备的供应链策略，迫使下游厂商从“准时制”转向“预防性”囤货，并重新评估长生命周期设备的硬件维护成本。由于旧产线重启成本极高且经济性差，DDR3的稀缺性将是长期的，这标志着摩尔定律放缓背景下，成熟芯片市场将进入由于供给收缩而非需求爆发主导的涨价周期。

💡 核心观点：AI算力军备竞赛正在重塑芯片供应链，迫使传统制造业为旧技术支付“产能挤占溢价”，全行业面临隐性通胀。

事件分析

这一开源项目精准切中了 AI 辅助编程工具发展过程中的“人机交互”痛点。随着 Claude Code、Cursor 等 Agent 级编程工具的普及，开发者的角色正逐渐从“代码编写者”转变为“AI 任务审核者”。Claudesk 的价值在于它为纯粹的 CLI 工具补齐了可视化（GUI）短板，将原本隐式运行的终端任务转化为可监控的图形界面进程。这反映了技术社区的一种共识：在 AI Agent 高度自动化的场景下，人机界面的核心不再是输入指令，而是态势感知与异常干预。此类轻量级开源工具的涌现，表明大模型生态中的应用层开发正变得活跃，开发者不再被动等待官方完善，而是主动构建适配自身工作流的“中间件”，加速了 AI 编程工具从玩具向生产力工具的转化。

💡 核心观点：AI编程工具正从“命令行黑盒”向“可视化监控台”演进，此类开源项目精准补齐了管理多Agent并发工作的交互短板。

事件分析

从技术视角审视，PicSlicer 的上线是 AI 辅助编程在实际落地中的一个典型缩影。开发者利用 Codex 等大模型工具，将原生 iOS 应用的开发周期压缩至一周以内，这在传统开发流程下难以实现。这不仅显著降低了独立开发者的技术门槛，更缩短了从创意验证到产品投放市场的时间窗口，体现了软件开发效率的质变。在产品设计层面，该应用针对特定垂直场景（旅行票根与复古风格记录）进行了深度定制，功能聚焦于图像处理与本地化存储。其强调的“本地优先”架构处理图片逻辑，规避了云端算力成本与隐私合规风险，契合当前移动端应用在轻量化与隐私保护上的技术演进方向。随着生成式 AI 工具的成熟，未来此类由单人团队快速构建、功能垂直、体验精简的应用预计将在应用市场中占据更多份额，重塑移动应用开发的成本结构。

💡 核心观点：此案例验证了 AI 编程工具正打破传统开发效率壁垒，赋能个人开发者以极低成本快速验证创意并交付商业产品。

事件分析

此次报告揭示了深度学习时代最严峻的技术治理悖论：系统能力的涌现速度超越了人类对其内部机制的科学解释能力。从技术维度看，随着模型向高度自主性演进，传统的“人在回路”监督机制在面对黑盒般的神经网络时逐渐失效，特别是潜在的欺骗性行为对现有的对齐技术提出了挑战。算力的高度集中（美中合计占 90%）表明，未来的 AI 竞争将不仅是算法竞争，更是基础设施与能源的地缘政治博弈。同时，报告指出的语言覆盖问题，暴露了当前大模型预训练数据的根本性缺陷，这种数据偏见可能导致非英语地区在医疗诊断等应用场景中面临更高的系统性风险。行业发展的重心必须从单纯的“能力扩展”转向“可解释性与安全性”的权衡。

💡 核心观点：当技术进化速度突破人类认知边界，AI 治理已从单纯的工程问题演变为全球安全挑战，安全可控亟需优先于性能堆叠。

事件分析

本项目不仅是游戏开发案例，更是现代 Web 图形技术与高性能后端架构优化的技术展示。通过针对 Three.js 的几何体生成逻辑进行底层优化，揭示了 WebGL 开发中 CPU 计算与 GPU 渲染之间的数据传输瓶颈，证明了预分配缓冲区在动态高频更新场景下的关键作用。后端采用 Go 语言配合二进制 WebSocket 协议，体现了在实时多人互动场景下，对网络延迟和带宽效率的极致追求。这种十年跨度下的技术迭代与重构，验证了浏览器原生技术在复杂交互和高性能计算方面的巨大潜力。

💡 核心观点：通过底层几何体优化与二进制网络协议的革新，该项目证明了 Web 技术栈在应对高性能实时渲染与高并发交互场景时的巨大潜力。

事件分析

该事件标志着企业级AI应用从“激进扩张”向“精细化治理”的关键转折。虽然大模型显著提升了编码效率，但高昂的推理成本使其成为企业不可忽视的财务负担。73.7万亿Token的单月消耗量揭示了外部API调用的巨大成本黑洞，这也是Meta强推内部工具替代Claude的根本动因——试图通过垂直整合将成本内部化。此外，打击“Tokenmaxxing”现象暴露了当前管理层的痛点：企业缺乏衡量AI实际产出的有效KPI，导致员工单纯追求Token消耗量。未来，具备精细计费、权限管控及效能分析的企业级AI网关将成为大厂基础设施的标配，降本增效将成为AI落地的主要叙事。

💡 核心观点：企业AI盲目烧钱时代终结，从堆算力转向控Token，证明降本增效才是大模型商业化的核心命题。

Tereza Tizkova 说软件工厂不是 coding agent

工厂是一整条生命周期

模型路由不是锦上添花

和字节实践的互相印证

agent-ready 不是口号，是基础设施清单

持久 computer use 是分水岭

组织差距会被放大

来源与说明

相关推荐

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

AI产能挤占引发蝴蝶效应：DDR3价格暴涨7倍反超DDR5，工控市场面临断供危机

事件分析

告别终端窗口切换：开源Claude Code专用macOS编辑器Claudesk

事件分析

AI编程实战：开发者仅用一周时间借助 Codex 完成并上线 iOS 旅行票根应用

事件分析

联合国专家组首份报告：AI 能力进步已超科学认知，自主系统缺乏有效控制

事件分析

十年后重写经典：Curvytron 2 展示 Three.js 渲染优化与 Go 语言高并发技术

事件分析

Meta内部AI滥用成灾：单月消耗70万亿Token，紧急转向自研工具治理成本

事件分析

最新文章

热门专题

热门标签

网站统计

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。