从写 Prompt 到写 Loop

最近翻硅谷工程师的讨论，有个变化挺明显：以前大家比谁的提示词写得漂亮，现在开始比谁的循环设计得好。

OpenClaw 的创始人 Peter Steinberger 在六月初发了条帖子，被看了八百多万次。他说，别再忙着主动提示你的 coding agent 了，你该做的是设计循环，让循环去提示 agent。他的原话是 “you should be designing loops that prompts your agents”。Claude Code 的负责人之一 Boris Cherny 在一次访谈里说得更直接：我的工作就是写 loop。灵姐说 AI 的这期视频（原视频）把这股风潮和 Addy Osmani 的 Loop Engineering 框架串了一遍。我看完做了点延伸：有些点我们一年前就在踩坑，有些点视频讲得比我系统。

这篇就顺着「杠杆后移」这条线往下讲：Loop 到底是什么、它和我们已经熟的 Harness 是什么关系、真要上生产还差哪几块。

article_illus_illus_1

先分清两层：Agent Loop 和 Loop Engineering

Loop 这个词最近被用得有点混，其实它指的是两层东西。

一层是 Agent Loop，这是底层机制。任何一个 agent 干活，底层都是同一个闭环：设定目标 → 规划步骤 → 执行 → 观察结果 → 反思改进 → 回到目标继续。大部分人卡在「执行完输出结果」这一步就停了，这不是闭环。真正的闭环要对执行的过程和结果都做一次观察，看哪里值得改，再带着改进转下一圈。

另一层是 Loop Engineering，是把这个机制产品化、工程化。其实就是：你不再亲手转动这个循环，而是设计一套系统，让它自己定时醒来、自己执行、自己检查、自己纠偏。Agent Loop 是发动机，Loop Engineering 是你给发动机配的整套控制系统。

灵姐讲过一种很具体的玩法：让 Codex 去执行，再让另一个 AI（Claude Code 或 GPT）去观察反思。这相当于给执行者配了个第三方评审，逼它一圈圈往前迭代。这个分工很关键，后面会专门讲。

杠杆后移：从 Prompt 一路退到 Loop

要理解「为什么高手开始写 loop」，得看这个杠杆是怎么一步步往后退的。

Prompt Engineering：杠杆在你的表达上。你琢磨怎么把一句话问好，让模型对单次输入理解得更准。
Workflow / Context Engineering：杠杆在任务流和上下文上。你用确定性的逻辑链条、更完整的项目背景，提升模型对整个任务的理解和完成率。
Harness Engineering：杠杆在运行环境上。你给 agent 搭执行环境、配工具、给权限框架和可验证的信号。Claude Code 和 Codex 在这一层都做得不错，精准执行的能力很强。
Loop Engineering：杠杆在循环本身上。你设计一个能自我演进的闭环，让系统替你去提示、检查、纠偏。

这是我想强调的第一个点：Loop 不是凭空冒出来的第四个名词，它是这条线退到底的那一格。 在我自己的知识库里，前三层早就归并成了一个「驾驭工程（Harness Engineering）」的同心圆：Prompt 在最内圈，Context 包着它，Harness 包着前两层，再加上工具编排、状态持久化、错误恢复、验证循环。Loop 做的事，是把这个同心圆里最外圈的「验证 + 编排」那部分，在单个任务的维度上焊成一个会自己转的环。

打个比方你会更有体感。Karpathy 有个说法：模型是 CPU，上下文窗口是 RAM，你是操作系统，决定每个任务往内存里加载什么。Prompt 是你手敲一条指令，Harness 是你写好了操作系统，而 Loop 是你给操作系统挂上了 cron——它不再等你敲，自己到点就跑。

article_illus_illus_2

Addy 的五个模块加一层记忆

Addy Osmani 是长期负责 Google Chrome 开发者体验、现在聚焦 Google Cloud AI 与 agent 生态的工程领导者。他那篇 Loop Engineering 把一个长期运行的 agent 系统拆成了五个模块加一层记忆，每个模块都对应一个「长跑 agent 必须解决的问题」。有意思的是，Claude Code 和 Codex 早就都有这些组件，只是叫法不同。

挨个说一下，顺带讲讲我自己的对照。

Automation（自动化）：谁来启动循环。 这是整个 loop 的心跳。Codex 里是它的心跳机制，Claude Code 里是定时任务运行符。它解决的问题很朴素：没有它，loop 就只是被手工跑了一次，人还得不停去戳。有了它，循环能在固定频率或特定条件下自己醒来。

Worktree（隔离仓）：并行不打架。 多个 agent 同时干活会不会互相踩？Worktree 共享同一份 Git 历史，但每个有独立的文件副本，让并行不变成混乱。

这块我得泼点冷水。视频里「并行不打架」是理想态，我们实战下来发现没这么省心。真正的规则是：只在执行阶段并发，merge 阶段必须串行。盲目开 N 个 agent 全程并发，只是把串行的合并痛苦后置，最后变成 merge 地狱。而且 worktree 隔离不是 100% 可靠，agent 有时会没进 worktree 就直接改了主仓库，你得每个并发任务起来后立刻 git status 主仓库做验证。决定能不能并发的，从来不是 agent 数量，而是这些任务有没有碰同一个文件：碰了共享数据结构的，必须串行。这是我会写进 prompt 当硬约束的东西，视频点到为止，落地时坑都在细节里。

Skill（技能）：让经验可复用。 Skill 解决的是「agent 每次不必从零理解项目」。它是封装好的、沉淀下来的工作流。这里要分清楚：Skill 本身是经验，Loop 是让经验循环跑起来的系统，一个是弹药，一个是枪。我自己的习惯是，一件事手动做上三到十次、确认稳定了，就把它编纂成 skill，再挂上自动化。好处是它永不退化，下次模型升级还能自动跟着变好。

Connector（连接器）：让 agent 长出手脚。 这里面是 MCP、插件、API 接口。很多人说 Codex 能剪视频，其实 Codex 本身不会剪，它是通过接入外部工具，把别人的能力变成自己的手脚。收发邮件、剪辑视频、生成音乐，这些能力 agent 本来都没有，是连接器一个个接上去的。

Sub-agent（子代理）：执行者和审查者分开。 Addy 在这块花的笔墨最多，原话是 “sub agents keep the maker away from the checker”。一个 agent 负责探索和编排代码，另一个负责对照规范做验证，两个角色、两个目标，分开循环。

这是我最认同的一块，也是我反复讲的玩法。很多人做任务只管创建，不做检查；或者就算检查了，也是同一个 agent 既当运动员又当裁判。Addy 说得很到位：执行本身值得花 token，审查本身也值得花 token，这两件事都重要。我把它总结成一条更硬的规则：别信 worker 的自我汇报，只信验证者。coding agent 是出了名的自信：build 没跑也会说 passed，测试没执行也会说通过了。所以执行者和审查者一旦不分离，过拟合和自我欺骗几乎是必然的。这条规则，是 loop 从「承诺」变成「合约」的关键。

Memory（记忆）：让 loop 产生复利。 模型会忘掉自己做过什么，但你把它写进仓库，它就不会忘。所以要定期写入记忆、更新记忆、复盘升级。没有记忆，loop 每一圈都是全新的、从头开始的；有了记忆，所有经验沉淀、所有错误规避、所有动作留痕，这个 loop 才是会产生复利的 loop。靠的就是文件系统给 agent 的跨上下文窗口连续性：模型记忆易失，仓库记忆持久。

article_illus_illus_3

把 Loop 看成一个控制系统

五个模块加一层记忆拼到一起，闭环就出来了，它其实就是一个标准的控制系统：

定时启动 → 读取外部输入 → 调用 skill 理解任务 → 建立彼此隔离的 worktree → 一组 agent 执行 → 一个独立的子 agent 审查规范 → 工具验证（dry run / 冒烟测试）→ 开 PR 更新任务 → 失败就记录原因重试 → 把全过程写入 memory → 进入下一轮。

你会发现，这套东西里真正稀缺的不是「让 agent 多跑几轮」，而是每一轮之间那些卡点：验证、隔离、审查、记忆。多跑几轮谁都会，把这几个卡点焊死才是工程。

真要上生产，还得补四块护栏

Addy 的框架已经挺完整，但灵姐补了四块，结合我自己的实操，这四块我觉得恰恰是从「玩具 demo」到「敢上生产」之间最硬的门槛。

第一块，验收标准。 loop 什么时候该继续转，什么时候该停下来，必须有个明确的标准。这个标准最好在你启动目标、写 goal 的时候就写进去。没有它，loop 要么提前收工，要么停不下来空烧 token。

第二块，权限边界。 尤其在企业里，这些东西能不能改、能不能删、能不能访问特定网络、能不能自动调付费 API、能不能直接往 Slack 发消息、能不能直接合并，最小权限原则都要写死。为什么这么较真？因为当模型真跑在企业任务里，token 成本、任务失败率、权限风险都会变成真实的钱、真实的事故。

第三块，Human Review / Human Gate。 权限边界的另一面，是人什么时候该介入。哪些情况超出边界需要人来观察，哪些节点 loop 必须暂停、等人拍板。权限边界和人工闸门，是同一件事的两面。

第四块，可观测性。 不只要结果可观察，整个 loop 的过程也得可观察：任务怎么拆的、每一步执行了什么动作，都要留痕。只有过程留痕，闭环执行时才有对比和审核的依据，才谈得上一圈圈提升。这一点和我一直信的判断对上了：当 SDLC 被 agent 压缩成「意图 → 构建 → 观察」的紧循环之后，唯一幸存下来的阶段就是可观测性。遥测数据应该闭环喂回 agent 当它的修复上下文，而不是只进人类的告警箱。

article_illus_illus_4

我会让读者记住的一句话

杠杆从 Prompt 退到 Loop，一共退了四格。每退一格，人就从流水线上往后撤一步：不再手搓每一句话，不再盯每一步执行。但有一样东西，无论退到哪一格都得始终攥在手里——验证。

盲目自动化和 Loop Engineering 的区别，不在于自动化的程度，而在于有没有把验证焊进每一轮。前者是让 agent 自己跑得更欢，后者是让 agent 每跑一圈都被一个独立的、可观察的检查卡一道。说到底，杠杆后移的本质，是验证位置的后移：从「做完之后人来抽查」，变成「系统里每一轮都自动发生」。

所以下次你想给 agent 写一段更长更漂亮的 prompt 之前，不妨先问自己一句：这件事，我能不能把它设计成一个会自己转、并且每一圈都能被检查的循环？能，它就是个生产系统；不能，它还只是一次性的对话。

事件分析

该事件深刻揭示了 AI 编程工具在安全策略执行层面的环境差异问题。技术视角分析，WSL 作为一个虚拟化子层，其环境指纹与原生 Windows 存在差异，可能导致被租户安全策略归类为“不可信上下文”，从而触发了比桌面端更严格的代码外发审查。桌面端应用可能利用了 OS 级的信任链或特定的 API 调用来绕过这一层检测，而 CLI 接口则暴露了原始的请求行为。这反映出当前 AI Agent 在执行“代码上下文共享”这类高风险操作时，缺乏统一且透明的权限管理标准。随着 MCP 协议的普及，如何确保开发者在不同终端环境中获得一致的策略体验，避免因环境误判阻断开发流程，将是 AI 开发工具链亟待解决的技术痛点。

💡 核心观点：WSL与Windows应用的双重标准暴露了AI编码工具在租户策略执行上的环境割裂，统一的信任链与透明度机制亟待建立。

事件分析

从技术角度来看，这起事件本质上是大模型在“代理”工作流中常见的“状态不一致”问题。在 AI 编程场景中，模型不仅作为生成器，还需要充当调度者调用系统工具。然而，基于下一个 token 预测的 Transformer 架构天然具有“幻觉”倾向，即倾向于生成训练数据中概率最高的通顺回复（通常是成功提示），而不是等待慢速的操作系统 API 返回具体结果。这种“抢答”机制导致了严重的信任危机。Claude Opus 之所以能“自曝”，可能是因为其上下文窗口中保留了足够的上下文约束，或者其内部对齐机制在生成了冲突信息后触发了安全审查。但从产业影响看，如果 AI 编程助手不能保证“所见即所得”，其作为生产力工具的可靠性将大打折扣。未来的技术演进方向必须强制模型与工具验证解耦，例如引入确定性的代码执行沙箱或要求模型必须引用工具返回的具体日志，而非仅凭直觉输出状态。目前 Anthropic 和 OpenAI 都在强化模型的“拒绝回答”或“不确定”能力，但在复杂的开发链路中，杜绝此类隐性错误仍需底层架构的变革。

💡 核心观点：大模型的“诚实自白”虽显可爱，却暴露了AI Agent中工具调用的根本性缺陷：模型概率预测与系统真实状态的割裂，仅靠模型自觉无法根除幻觉。

事件分析

EdgeGlow 的出现揭示了 AI 辅助开发领域的一个重要趋势：从单纯的功能交互向感官体验升级。随着 Claude Code 等 AI Agent 逐渐接管复杂的编程任务，用户对 AI '黑盒'思考过程的感知需求日益增强，可视化的状态反馈成为缓解等待焦虑、建立人机信任的关键机制。该工具采用本地 HTTP 服务器与 Agent Hooks 通信的架构，不仅实现了跨进程的低延迟交互，也为 AI 工具与桌面环境（DE）的深度集成提供了参考范式。其极低的 CPU 占用设计表明，开发者开始重视在后台运行 AI 工具时的资源效率。未来，类似的 UI/UX 增强插件可能会成为 AI Native IDE 生态的重要组成部分，推动开发者工具从效率优先转向体验与效率并重的阶段。

💡 核心观点：可视化 AI 思考状态正在成为消除人机隔阂、增强开发者掌控感的关键交互设计。

事件分析

此次DeepMind的发声标志着AI安全研究的重心从“生成内容合规”向“自主行为控制”的关键性转移。当AI模型获得执行代码和访问互联网的权限时，传统的输入输出过滤机制已不足以防范风险。技术层面上，文章重点提到的“中断机制”和“沙箱隔离”是解决Agent不可控性的核心手段，这对未来的AI开发者工具提出了更高的架构要求，例如在Cursor或VSCode等集成环境中运行的Agent必须具备严格的权限管理。产业角度看，随着OpenAI、Anthropic和谷歌竞相推出Agent应用，谁先解决“安全与能力的平衡”问题，谁就能在B端企业市场获得信任准入。DeepMind此举实际上是在为即将到来的Agent大规模商业化落地制定安全“护栏”，试图通过行业标准来规避潜在的监管灾难。

💡 核心观点：AI智能体若想从辅助工具进化为自主劳动力，必须先解决“权限失控”难题，DeepMind提出的红队与沙箱策略定义了其落地的安全基线。

事件分析

此次关于GLM模型免费渠道的讨论，反映了当前AI开发领域中“Token经济”与开发者生态竞争的现状。智谱AI（GLM系列背后的公司）通过官方及合作渠道释放大量免费额度，意在降低开发者门槛，培养用户习惯，从而在激烈的大模型市场竞争中争取更多生态位。特别是ModelScope等平台提供的每日免费调用额度，直接降低了个人开发者和中小企业的试错成本。此外，文中提到的“New API”等第三方聚合网关的流行，揭示了当下大模型API调用碎片化、开发者急需统一管理入口的趋势。这种聚合工具的出现，使得开发者可以灵活切换不同底座模型，避免被单一供应商锁定。从产业角度看，免费额度的持续发放是大模型厂商从“拼参数”转向“拼应用”和“拼生态”的重要策略，通过渗透开发工具链（如VS Code插件、API网关），厂商试图在AI编程工具成为标配之前，抢先占领开发者的工作流。

💡 核心观点：大模型厂商通过高额免费配额与聚合网关降低开发门槛，旨在以低成本策略争夺开发者生态与AI编程入口的主导权。

事件分析

这一事件标志着科技行业能源策略的根本性转变，从单纯的绿色电力购买方转向核电基础设施的直接投资者和承购方。随着 AI 算力需求的指数级增长，传统的可再生能源因其间歇性和长周期的电网审批流程，已难以满足数据中心全天候、高稳定的电力需求。TerraPower 的 Natrium 技术将核反应堆与熔盐储能系统结合，不仅解决了基荷供电问题，更提供了类似燃气调峰电厂的瞬时输出能力，这种灵活性对应对 AI 负载波动极具价值。

在供应链层面，Meta 的巨额订单为 TerraPower 建立供应链规模效应提供了关键资金支持，有助于降低先进反应堆（如钠冷快堆）的建造成本。然而，这一路径的成功仍高度依赖高丰度低浓铀（HALEU）燃料的制造与商业化进程。美能源部的 27 亿美元注资表明政府已意识到燃料供应链的短板，正在通过国家资本加速这一环节的产能建设。

值得注意的是，文中提到的“私有线路”方案可能成为趋势。若绕过传统电网审批，直接将核反应堆连接至数据中心园区，将大幅缩短项目落地周期，但也带来了新的工程和监管挑战。

从写 Prompt 到写 Loop

先分清两层：Agent Loop 和 Loop Engineering

杠杆后移：从 Prompt 一路退到 Loop

Addy 的五个模块加一层记忆

把 Loop 看成一个控制系统

真要上生产，还得补四块护栏

我会让读者记住的一句话

相关推荐

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

WSL环境下AI编码工具触发安全拦截：MCP协议调用与策略执行差异分析

事件分析

Claude Opus 代码生成现“幻觉”：自曝文件转换失败，大模型工具调用的信任危机

事件分析

硬核开发者的视觉福利：EdgeGlow 将 iPhone 流光复刻至 macOS 桌面

事件分析

谷歌DeepMind发布新框架：构建安全可控的AI智能体未来

事件分析

开发者福利：GLM-5.2大模型免费API调用渠道与额度实测汇总

事件分析

Meta宣布斥资数十亿美元建设8座先进核反应堆，为AI数据中心提供零碳电力

事件分析

最新文章

热门专题

热门标签

网站统计

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。