云聚 AI Token Plan 满 199 减 35 元
AI编程 · 架构思考 · 技术人生
DigitalOcean 开发者云

Prompt Learning 的两个反馈圈

云聚 AI Token Plan 满 199 减 35 元

最近半年,业界几乎所有团队都在抱怨 agent 不可靠。模型选了最贵的,工具调用接全了,上下文也尽量塞满,可输出依然时好时坏。换一个模型也救不回来。问题出在哪里?

Arize 的 SallyAnn DeLucia 和 Fuad Ali 在 AI Engineer 大会上做了一个 52 分钟的工作坊,给出的诊断是:绝大多数情况下,模型并不弱,弱的是它身处的环境与被喂的指令。他们把这套方法叫 prompt learning,一个针对 system prompt 的持续学习闭环。

阿里云 OPC 一人公司创业装备库

这篇文章不会复述工作坊全程。我想做的是把视频里最值钱的一个判断单独抽出来:prompt learning 真正起作用,不是因为左边那个 agent 优化圈,而是因为很多人没看到的右边那个 eval 优化圈。

article_illus_illus_1

失败的起点是 system prompt

工作坊一开始,Sally 问了现场两个问题。第一个:在场有多少人正在搭 agent?几乎所有人都举手。第二个:你们觉得自己搭的 agent 够可靠的,请举手。手齐刷刷放下。

这画面值得记住。它就是行业现状的浓缩。

Arize 团队自己也在搭一个名叫 Alex 的产品内 agent,所以他们对各种失败模式特别敏感。他们把常见的 agent 失败原因拆成三组:

  • adaptability / self-learning 缺失:system prompt 写死,agent 不会从历史交互里更新对环境的认知
  • determinism 与 non-determinism 失衡:要么完全没 planning,要么 planning 死板到没有任何弹性
  • context engineering 不到位:工具缺失、工具选择没指引、关键上下文没传进去

听着像三个独立问题,三组归根结底是同一件事:system prompt 没把规则讲清楚。

他们拿 cline 这个开源 coding agent 做了个对照实验。原始 system prompt 几乎是空的,写的是「You are a cline agent built on this model, you do coding」,完全没有 rules section。改造之后,他们加了一组工程师默认遵守的规则:处理错误时怎么办、修改要对齐系统设计、改动要带测试。仅此而已,没有任何架构调整,没有 fine-tuning,也没有换工具。

结果是在 SWE-bench Lite 上 +15%。

要解释一下 SWE-bench Lite 是什么:它是用真实 GitHub issue 改编的代码修复测试集,把「修一个真实 bug」作为评分任务。业界顶尖模型在上面也就 30%–50% 的水平,每涨 2-3 个点都要被写成新闻。一次性砸进来 15 个点,相当于模型迭代两到三代才能拿到的提升。

更值得留意的是同一批实验里的第二个数据点:原本表现 30% 的 GPT-4.1,在加规则后接近了 GPT-4.5 的水准,而成本只有 4.5 的三分之二。也就是说,你不需要为了让 agent 变好就去抢最新最贵的模型,把规则补齐就能省下一大半推理成本。

这正是这两年 harness 工程领域反复出现的同一个信号,业内有人把它叫 binding-constraint thesis:模型已经不是真实可靠性的瓶颈,harness 才是。LangChain 仅靠改 harness 把 coding agent 在 Terminal Bench 上的排名跳了 20 多位,Vercel 把工具定义从一百多个砍到二十几个,agent 成功率从 80% 拉到 100%,速度还快 3.5 倍。这些都是冻结模型权重、只改外围控制结构的结果。

Sally 总结这一段时说得很朴素:

这是个低投入、高回报的方向。你不用动架构、不用 fine-tune、不用换工具,只动 system prompt,就能拿到大幅提升。

article_illus_illus_2

从 RL 到 prompt learning 的三跳

知道 system prompt 这么重要之后,下一个问题就是:怎么让它自己越变越好?

Sally 用一个学生考试的类比把三种方法串了起来。

第一跳是强化学习(RL)。把模型当学生,让它做题,老师改卷给一个分数,学生根据分数更新脑子里的「权重」。这套逻辑在传统 ML 里跑得通,但落到 LLM 上就尴尬了:你没法直接更新 LLM 的权重,更新一次成本极高。

第二跳是 meta-prompting。模型还是那个学生,老师换成了一个「meta-prompt」。学生做题,evaluator 打分,再让 meta-prompt 这个老师根据分数去改写学生用的 prompt。这一跳已经接近 prompt learning 了,但还缺一样东西。

第三跳才是 prompt learning。Sally 在这里强调的差异只有一句话:

The information that we are giving that LLM is quite different.

它和 meta-prompting 的结构几乎一样,agent 做题、evaluator 评分、用另一个 LLM 去改写 system prompt。唯一不同的,是反馈信号从一个 scalar 分数升级成了自然语言解释。不仅告诉你「这题错了」,还告诉你「为什么错」:违反了哪条指令、漏掉了哪个上下文、没遵守哪个边界条件。

这一改看似细微,实际上是把模型的优化材料从一维数轴搬到了文本空间。Sally 的原话是:

这些 LLM 都是在文本空间里工作的。我们有这些丰富的文本可以告诉它具体应该怎么改进,为什么不用它来真正去优化我们的 prompt?

这才是 prompt learning 区别于其它优化方法的核心。最近热度很高的 GEPA,Google 联合 Stanford 提出的进化式 prompt optimizer,也在做类似的事:让一个 reflection LM 去看 evaluator 的反馈、做 prompt mutation。Arize 自己跑了对比:prompt learning 用更少的循环达到了相当甚至略高的精度。差异在哪里?Sally 没有反复强调技术细节,她反复强调的是另一件事。

article_illus_illus_3

真正的瓶颈:你的 eval 有多准

视频到中段,有人提问:「如果用例不像 coding 那么好量化,prompt learning 怎么用?」

Sally 的回答把问题翻了个面:你最先该问的其实是另一件事,「我的 evaluator 本身可不可靠」。这是工作坊真正的关键点,也是我看完全片之后觉得最值得拎出来单写一段的地方。

她在白板上画了两个圈。

左边那个圈是大家都在看的:

agent 产出 → evaluator 评分 → 收集失败样本 → 改 prompt → 回到 agent

右边那个圈是大家都忽略的:

evaluator 自己也在评 → 评得准不准? → 收集 eval 出错的样本 → 改 eval prompt → 回到 evaluator

Sally 把它叫做 co-evolving loops,共演化的两个循环。然后她说了一句很重的话:

The left loop only works as well as your eval.

这句话直白翻译就是:右圈不靠谱,左圈做得再漂亮都是假象。

为什么?因为左圈里「失败样本」的认定权完全交给了 evaluator。如果 evaluator 把一个其实正确的回答打成 incorrect,那么「为什么错」的自然语言解释也跟着是错的。拿这种解释去改 system prompt,你优化出来的 agent 只是越来越懂得讨好这个错误的 evaluator。你越跑越偏,还以为指标在涨。

LangChain 2026 年那份产业调查里有一个数据正好能说明这件事:89% 的团队上了可观测平台,能看到 agent 每一步在做什么;但只有 52.4% 的团队真正跑离线评估。剩下那 37% 的差额,就是「看得到、判不准」的灰色地带,trace 数据躺在那里,但没有一套可靠机制把它转化为对错信号。

右圈的搭法跟左圈是完全同构的。Sally 给的方法是这样:

  • 不只让人工标对错,要让人工评 evaluator,看 evaluator 给的解释合不合理
  • log probability 当置信度,或者用 jury-as-a-judge(多个 LLM 投票)找出 evaluator 自己也犹豫的样本
  • 把这些「evaluator 失误」的样本收集起来,标注「为什么错」
  • 用同一套 prompt learning 的方法优化 evaluator 自己的 prompt

听上去重,实际上是非做不可。如果你把 evaluator 当成一个「装上就能用」的工具,最后必然栽在第二阶。这就是「把 prompt 当系统」反模式的另一种落地形态:evaluator 也是 prompt,evaluator 不写好同样会失控。

我自己更进一步的理解是:右圈的稀缺度高于左圈,因为它要的是领域专家的二阶判断。左圈里专家只要回答「这个 agent 输出对不对」;右圈里专家要回答「这个 evaluator 的判断对不对,它为什么错」。前者是经验问题,后者是 meta 经验问题。同一批人很少能同时供应这两种判断,组织里需要专门的 review 流程来保证。这也是 Sally 视频里一句反复出现的话的真正含义:eval prompt 值得你像 agent prompt 一样去投入。

article_illus_illus_4

overfitting 是 expertise,不是缺陷

这段我觉得可以单独拎出来讲,因为它涉及一个直觉上的反转。

很多人第一次听 prompt learning 都会立刻问:「你拿失败样本去优化 prompt,不就过拟合到这批样本了吗?模型会不会丧失泛化能力?」

Sally 的回答是:

如果你招一个工程师进公司,你恰恰希望他对自己手头这套代码库过拟合。我们换个词叫 expertise,专长。

这个翻转值得停一下。

传统 ML 里 overfitting 之所以坏,是因为模型一旦学死了训练分布就在新分布上失效。prompt learning 优化的对象是 system prompt,是一组工作规则,不是模型权重。工作规则就是该 overfit 的。一个工程师如果非要「通用」到不熟悉自家代码风格、不熟悉历史决策,那叫不专业,不叫泛化。

这一段在工作坊里 Sally 只用了两三分钟带过去,但它把一个长期被误读的概念翻译对了。它呼应了 Karpathy 反复说的那句话:好的 harness 应该让模型的智能变得「对你这件事」更有用,而不是变得「对所有事」更平均。所以 prompt learning 跑的是连续优化,不是一次性优化。随着业务案例不断累积,prompt 也跟着持续吸纳新的规则。Sally 自己把这种持续优化看作一种长程任务,后台一直在跑,不断产出新版本 prompt 推到生产环境。

这套思路对组织的含义比技术细节更值得记住:写 system prompt 不是一次性的开工动作,而是一项持续运营的业务。

article_illus_illus_5

把这套 loop 接到我的团队场景里

我们团队做的是机器人云服务,每天有大量 JIRA 工单、巡检报告、错层日志要分诊。最近半年我也在把这些环节往 agent 化推进。看完这个工作坊,我重新审视了自己之前的做法,几件事得改。

第一,evaluator 的优先级要往前提。我之前花在 agent prompt 上的时间远比花在 eval prompt 上多,理由是「eval 嘛,反正人工抽检一下就行」。这其实就是 Sally 警告的反模式。eval 不准,整套 loop 就在自欺欺人地跑。接下来要专门做一遍 eval audit:把每类工单都过一遍 eval 的判断历史,看 eval 自己有多少误判,把误判样本收集起来跑 prompt learning。

第二,反馈不能停在 score。我们之前的 eval 输出基本是 score 加 label,工程师拿到这个分数也分析不出什么。应该把 eval prompt 改成强制输出「为什么对/为什么错」的自然语言解释。这部分文本才是 prompt learning 真正用得上的优化燃料;它会变成下一轮优化的训练信号。

第三,领域专家要被拉进右圈。我们的运维同学才是真正知道哪些工单分诊「看起来对、其实错」的人。这种二阶判断只能他们来做。需要给他们建一个轻量的 evaluator review 界面,让他们标注 evaluator 失误样本,定期反哺到右圈。

第四,rules section 要成为 system prompt 的固定结构。这一条最简单也最容易立刻见效。我们目前的 agent prompt 也是 cline 工作坊前那种状态:身份加任务,没有 rules section。后续会专门给每个 agent 加一个明确的 rules 章节,把团队过去半年积累的「哪里容易翻车」全部写进去。这本来就该是 system prompt 的核心,不是附属。

这四件事里没有一件需要换模型、换框架、换基础设施,全部都是 prompt 这一层能改出来的,跟工作坊的 takeaway 一致:这是个低投入、高回报的方向。

一句话收束

如果只能记住一件事,记这一句:

prompt learning 不是让 LLM 改 prompt,而是把 prompt 改造成一个可验证系统,并且把 eval 也一起拉进这个系统。

左圈大家都看得到。右圈藏在大多数团队的盲区里。哪天你团队的 agent 看上去越优化越糟,先去看右圈。

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:Toy's Tech Notes » Prompt Learning 的两个反馈圈
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐