云聚 AI Token Plan 满 199 减 35 元
AI编程 · 架构思考 · 技术人生
DigitalOcean 开发者云

Loops 是 AI 编程的新词,不是新东西

云聚 AI Token Plan 满 199 减 35 元

过去一周,”loop”这个词在 AI 编程圈被反复提起。OpenAI 的 Peter Steinberger 在 X 上写了一句”你不该再 prompt 编程 agent,你该设计 prompt agent 的 loop”,24 小时拿到 500 万浏览。同一周,Anthropic 的 Boris Cherny 在一个访谈里说”我已经不 prompt Claude 了,我有一堆 loop 在跑,我的工作是写 loop”。Matthew Berman 把这两段串成一期视频,叫《Only the best are using them…》,13 分钟讲清楚 loop 到底是什么,为什么现在突然所有人都在谈。

把视频看完,我的第一反应是:这不是一个新概念,是一个新名字。命名扩散本身有价值,但容易让人误会自己错过了什么。

阿里云 OPC 一人公司创业装备库

loop = trigger + 可验证的目标

视频里 Berman 给的定义很干净:一个 loop 只需要两样东西,一个 trigger,一个 goal,且 goal 必须是可验证的。验证可以是测试通过、函数无报错这种确定性判断,也可以是让另一个 LLM 来判定”目标是不是达成了”这种非确定性判断。

他自己也点破了:这就是强化学习(RL)里的 verifiable reward。RL 训练 agent 的前提是奖励信号可被机器读懂。换到工程语境,loop 训练你的代码库的前提是”完成”这件事可被机器读懂。所以 loop 在方法论上没什么新意,它把 RL 范式里的核心结构搬到了 dev tooling 上而已。

trigger 一共只有三种:

  • 某个动作发生,比如 PR 被打开,CI 失败
  • 定时触发,cron 任务,每 30 分钟跑一次
  • 人手动启动一次

goal 也只有两种:

  • 确定性目标,所有测试通过、构建无错、CI 全绿
  • 非确定性目标,某个 LLM judge 觉得”差不多达标了”

视频里给的例子:在 Cursor 的 Automations 面板挂一条规则,每次 Astro Hub 项目有新 PR,自动评审、修问题、commit 回同一 PR、确保所有测试和 CI 绿。再比如在 Claude Code 里输入 /loop 5m "比对当前代码和 spec.md,继续补缺直到完成",每 5 分钟启动一个新 agent,让它接着干,直到目标达成。

loop 和 automation 的区别只在一处

视频后半段 Berman 反复强调一件事:loop 和 automation 长得像,差别只有一处。loop 里有一个判断节点,由 loop 自己决定”目标是不是达到了”;automation 没有,automation 就是按部就班把一串预设动作跑完。

听起来是术语区分,其实是工程上的实质区别。automation 失败可以容忍,因为它只负责”跑一次该跑的流程”。loop 失败成本高得多,因为它要自己拍板”再来一轮还是停下”。如果它判断错了,比如以为目标达成实际没达成,或者反过来死循环不肯停,它会一直烧 token 直到你发现。

这一点和我之前看 /goal 那个原语时记下来的判断完全一致:”停”和”完成”是两件事。loop 工程的难点不是让它转起来,是让它该停的时候停得下来。

真实门槛不在概念,在 spec 和 token

Berman 在视频中段花了相当篇幅讲 loop 现在的局限,没有藏着掖着。这是这期视频最值钱的部分,因为它直接回答了”我能不能开始用”这个问题。

第一个门槛是 spec 写不出来。 最简单的 loop,”所有测试通过为止”,好写,因为目标是机器可读的。但只要目标稍微抽象一点,比如”把这个功能做完”,你就必须把”做完”的全部含义提前写清楚。Berman 自己说,他写功能时本来就是边写边想,需要哪些部分、不要哪些部分、改哪里、删哪里,这个探索过程他不愿意让出。loop 工程要求你提前把这个过程冻结成一份完整的 spec,对很多人,包括 Berman 自己,这是反直觉的。

第二个门槛是 token。这个数字必须放出来读一下:Peter Steinberger 几周前晒过自己一个月的 token 账单,130 万美金。 130 万美金一个月是什么概念?按 Claude Sonnet 当前定价折算大约是 130-200 亿 token,相当于一个工程师每天 5-7 亿 token 的消耗。同期一个 Cursor Pro 订阅 20 美金一个月,含约 500 次 fast request。这两个数字不在同一个量级,差了大约六个零。Steinberger 和 Cherny 能这么玩,是因为他们分别在 OpenAI 和 Anthropic,两家都给员工开了”无限 token”权限。

这两个门槛叠加起来,Berman 给的判断是:”只有顶端 1% 里的 1% 真在用 loop。”对普通工程师,看懂这件事重要,但今天就把工作流切过去既不必要也不现实。

我看完之后的判断

下面这些超出视频本身,是我自己的补充。

第一件事,loop 这个词把过去 6 个月散落在各处的几股暗流统一了一下。我手头的笔记里至少有四种说法在指同一件事:

  • Karpathy 反复讲的”verifiable harness”,AI 时代的核心工程能力是把任务改写成可验证系统
  • 李韭二 4 月写的 Harness Engineering,agent 的真正产品形态是那套驾驭系统,prompt 只是入口
  • Boris Tane 上周那篇《SDLC 已死》里说的”Intent → Build → Observe → Repeat”紧循环
  • /goal 原语在 Claude Code、Codex、Hermes 三家独立收敛出的同一格式

这些放在一起看,loop 这个词的功劳是给这股暗流装了一个普通人记得住的入口名。这件事的好处是入门成本被压低。你不用先读完 Karpathy 的全部推文,记住”trigger + 可验证目标”两个词,就可以开始决定要不要深入。

第二件事,我不同意视频里的潜台词”未来所有人都该这么干”。loop 是新计算范式里的一种使用方式,但只是其中一种。AKSOUL 那条原则”人扶方向盘,不站流水线”是对的,但前提是你已经在路上。99% 的工程师还没有把”可验证目标”这件事在自己的项目里落下来,跳过这一步直接去搭 loop,你烧掉的不只是钱,还有自己对系统的理解机会。

具体怎么落?我自己最近的做法分两步:

  • 先把每一个交付任务尽量改写成可验证形式。Success Metric 是什么?Failure Modes 是哪些?Checks 怎么跑?这三件能写清楚,loop 才有意义;写不清楚,loop 只会更快地把错误目标实现一万遍
  • 再用最便宜的 loop 起手。Claude Code 里 /loop 跟着一条很窄的命令,比如”修这个文件直到 lint 全绿”,不要先跳到”开发整个功能直到上线”。窄的 loop 反馈快、成本低、容易学会判断它什么时候该停

第三件事,视频结尾抛了一个真正有分量的问题:人是不是永远要待在 loop 里?Berman 自己的答案是,今天必须在,因为定方向、定目标的还是人;但终局可能不在,那一刻叫 recursive self-improvement,Anthropic 上个月发过一篇专门讨论这个的长文。我对这个时间表持保留意见,但结构上 Berman 没说错。一旦 AI 自己有审美、能定目标、能选方向,loop 工程师这个职业就和今天的运维工程师一样,会被它自己设计的系统吃掉。

收束

loop 在方法论上没有新意,它把 RL 的 verifiable reward 思路在 dev tooling 上做了一次本地化。今天它属于顶端 1% 里的 1%,因为它要求两样东西普通工程师手上都没有:一份可验证的 spec,和接近无限的 token 预算。

普通工程师真正该做的事很朴素:先把”什么叫完成”这件事,在自己手头每一个任务里都写到机器读得懂的程度。这件事写不下来,再贵的 loop 也救不了你。

原视频不到 14 分钟,Berman 讲得清楚,建议直接看一遍。

— toy

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:Toy's Tech Notes » Loops 是 AI 编程的新词,不是新东西
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐