Vaibhav Gupta 用 slop 对抗 slop

Vaibhav Gupta 的题目叫 “fighting slop with slop”。这个标题很口语，但讲的是一个严肃问题：AI 产出的粗糙内容，能不能用另一套 AI 工具链来治理。

原视频：https://www.youtube.com/watch?v=htM02KMNZnk

slop 不是情绪词，是工程对象

很多人说 AI slop，通常是在表达厌烦：代码看着能跑但不优雅，回答很满但不准确，工具调用很勤快但没有抓住问题。Vaibhav 的做法不是停在抱怨，而是把 slop 变成可观察对象。

他讲 BAML 和一套围绕 LLM function 的工具链。核心思路是：不要只靠人肉 review 模型输出，而是把输出变成可记录、可比较、可测试、可 A/B test 的对象。

转录里有一段很典型：如果你能发现语言特性，能比较哪个 skill 用更少 tool calls、哪个出错更少、哪个结果更正确，你就可以更确定地改进系统。这里的重点不是 “slop” 这个词，而是从主观评价变成可测量反馈。

AI 输出也需要软件工程工具

这和普通软件工程很像。我们不会只靠肉眼判断所有代码是否可靠，而是靠 test、lint、type check、trace、profiling。AI 输出也需要同样的工程化。

如果你不知道 prompt 哪一步坏了，工具调用哪里错了，schema 哪个字段不稳定，模型输出为什么不可 parse，你就无法改进系统。你只能继续调 prompt，或者换一个更贵模型。

BAML 这类工具的价值，是把 LLM 调用从 “一段神秘文本” 拉回工程对象。你可以看结构、看调用、看错误、看对比。能定位，才谈得上修复。

用 slop 对抗 slop 的边界

当然，这里也有一个风险：用更多 AI 工具治理 AI 输出，可能制造更多层黑盒。Vaibhav 的方法之所以有价值，不是因为又套了一层模型，而是因为它把评估和观察变得更具体。

如果第二层 AI 只是说 “我觉得第一层不错”，那没有意义。它必须产生可检查证据：字段是否符合 schema，测试是否通过，工具调用是否命中，输出是否能被下游消费。

我的理解是，AI 应用成熟的标志，不是输出变得漂亮，而是错误变得可定位。不能定位，再强的模型也只是黑盒。能定位，software factory 才能从玄学调参变成工程迭代。

Bun 的背景让这场更有说服力

Vaibhav 的例子不是轻量玩具项目，而是 Bun 这种涉及运行时、编译器、类型系统、codegen、并发语义和多语言 FFI 的工程。这样的项目如果说两年没做传统意义上的逐行 code review，会让人警觉。

但他不是说“我们完全相信 AI”。恰恰相反，他的核心是建立一套足够密的观察和检查系统，让 AI 产出的粗糙部分被另一套工具链捕获。这里的重点不是放弃工程标准，而是把标准更多写进机器可执行流程。

这和软件工厂主题很贴。生成代码会越来越便宜，真正稀缺的是判断哪些生成物可信。Vaibhav 说 fighting slop with slop，本质是用便宜自动化覆盖大量低级检查，把人从机械 review 里释放出来。

关键是让 AI 产出可比较

如果一个 prompt 版本生成的结果只是“看起来还行”，团队很难进步。你需要知道它比旧版本好在哪里：更少 tool calls？更少 schema 错误？更少 runtime failure？更容易被下游解析？更少人工修正？

BAML 这类工具把 LLM 调用变成可比较对象。它让输出结构化，让失败可记录，让不同 skill 和模型可以对比。这样团队才能像优化软件一样优化 AI 流程。

这套方法不适合偷懒

最危险的误读是：既然 slop 可以对抗 slop，那就可以降低标准。实际上刚好相反。你只有标准足够明确，才能把检查自动化。没有标准，第二层 AI 只会给第一层 AI 背书。

所以这场对团队的要求很高：你要先定义什么是坏输出，什么是可接受，哪些字段必须稳定，哪些错误绝不能进主流程。AI 工具链越复杂，标准越要清楚。

来源与说明

本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息，以及本地 AI engineering 知识库整理。文章不是逐字稿，而是按单场分享的主线、上下文和工程启发重写。

事件分析

此次DDR3价格倒挂并非单纯的商业投机，而是全球半导体制造业因AI算力竞赛而重构的缩影。技术看点在于，存储晶圆厂的产能具有排他性，当高利润的HBM和先进DRAM产能满载时，成熟制程产线被迫关停或转产，导致存量市场出现物理性缺货。产业影响方面，这将深远改变工控与嵌入式设备的供应链策略，迫使下游厂商从“准时制”转向“预防性”囤货，并重新评估长生命周期设备的硬件维护成本。由于旧产线重启成本极高且经济性差，DDR3的稀缺性将是长期的，这标志着摩尔定律放缓背景下，成熟芯片市场将进入由于供给收缩而非需求爆发主导的涨价周期。

💡 核心观点：AI算力军备竞赛正在重塑芯片供应链，迫使传统制造业为旧技术支付“产能挤占溢价”，全行业面临隐性通胀。

事件分析

这一开源项目精准切中了 AI 辅助编程工具发展过程中的“人机交互”痛点。随着 Claude Code、Cursor 等 Agent 级编程工具的普及，开发者的角色正逐渐从“代码编写者”转变为“AI 任务审核者”。Claudesk 的价值在于它为纯粹的 CLI 工具补齐了可视化（GUI）短板，将原本隐式运行的终端任务转化为可监控的图形界面进程。这反映了技术社区的一种共识：在 AI Agent 高度自动化的场景下，人机界面的核心不再是输入指令，而是态势感知与异常干预。此类轻量级开源工具的涌现，表明大模型生态中的应用层开发正变得活跃，开发者不再被动等待官方完善，而是主动构建适配自身工作流的“中间件”，加速了 AI 编程工具从玩具向生产力工具的转化。

💡 核心观点：AI编程工具正从“命令行黑盒”向“可视化监控台”演进，此类开源项目精准补齐了管理多Agent并发工作的交互短板。

事件分析

从技术视角审视，PicSlicer 的上线是 AI 辅助编程在实际落地中的一个典型缩影。开发者利用 Codex 等大模型工具，将原生 iOS 应用的开发周期压缩至一周以内，这在传统开发流程下难以实现。这不仅显著降低了独立开发者的技术门槛，更缩短了从创意验证到产品投放市场的时间窗口，体现了软件开发效率的质变。在产品设计层面，该应用针对特定垂直场景（旅行票根与复古风格记录）进行了深度定制，功能聚焦于图像处理与本地化存储。其强调的“本地优先”架构处理图片逻辑，规避了云端算力成本与隐私合规风险，契合当前移动端应用在轻量化与隐私保护上的技术演进方向。随着生成式 AI 工具的成熟，未来此类由单人团队快速构建、功能垂直、体验精简的应用预计将在应用市场中占据更多份额，重塑移动应用开发的成本结构。

💡 核心观点：此案例验证了 AI 编程工具正打破传统开发效率壁垒，赋能个人开发者以极低成本快速验证创意并交付商业产品。

事件分析

此次报告揭示了深度学习时代最严峻的技术治理悖论：系统能力的涌现速度超越了人类对其内部机制的科学解释能力。从技术维度看，随着模型向高度自主性演进，传统的“人在回路”监督机制在面对黑盒般的神经网络时逐渐失效，特别是潜在的欺骗性行为对现有的对齐技术提出了挑战。算力的高度集中（美中合计占 90%）表明，未来的 AI 竞争将不仅是算法竞争，更是基础设施与能源的地缘政治博弈。同时，报告指出的语言覆盖问题，暴露了当前大模型预训练数据的根本性缺陷，这种数据偏见可能导致非英语地区在医疗诊断等应用场景中面临更高的系统性风险。行业发展的重心必须从单纯的“能力扩展”转向“可解释性与安全性”的权衡。

💡 核心观点：当技术进化速度突破人类认知边界，AI 治理已从单纯的工程问题演变为全球安全挑战，安全可控亟需优先于性能堆叠。

事件分析

本项目不仅是游戏开发案例，更是现代 Web 图形技术与高性能后端架构优化的技术展示。通过针对 Three.js 的几何体生成逻辑进行底层优化，揭示了 WebGL 开发中 CPU 计算与 GPU 渲染之间的数据传输瓶颈，证明了预分配缓冲区在动态高频更新场景下的关键作用。后端采用 Go 语言配合二进制 WebSocket 协议，体现了在实时多人互动场景下，对网络延迟和带宽效率的极致追求。这种十年跨度下的技术迭代与重构，验证了浏览器原生技术在复杂交互和高性能计算方面的巨大潜力。

💡 核心观点：通过底层几何体优化与二进制网络协议的革新，该项目证明了 Web 技术栈在应对高性能实时渲染与高并发交互场景时的巨大潜力。

事件分析

该事件标志着企业级AI应用从“激进扩张”向“精细化治理”的关键转折。虽然大模型显著提升了编码效率，但高昂的推理成本使其成为企业不可忽视的财务负担。73.7万亿Token的单月消耗量揭示了外部API调用的巨大成本黑洞，这也是Meta强推内部工具替代Claude的根本动因——试图通过垂直整合将成本内部化。此外，打击“Tokenmaxxing”现象暴露了当前管理层的痛点：企业缺乏衡量AI实际产出的有效KPI，导致员工单纯追求Token消耗量。未来，具备精细计费、权限管控及效能分析的企业级AI网关将成为大厂基础设施的标配，降本增效将成为AI落地的主要叙事。

💡 核心观点：企业AI盲目烧钱时代终结，从堆算力转向控Token，证明降本增效才是大模型商业化的核心命题。

Vaibhav Gupta 用 slop 对抗 slop

slop 不是情绪词，是工程对象

AI 输出也需要软件工程工具

用 slop 对抗 slop 的边界

Bun 的背景让这场更有说服力

关键是让 AI 产出可比较

这套方法不适合偷懒

来源与说明

相关推荐

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

AI产能挤占引发蝴蝶效应：DDR3价格暴涨7倍反超DDR5，工控市场面临断供危机

事件分析

告别终端窗口切换：开源Claude Code专用macOS编辑器Claudesk

事件分析

AI编程实战：开发者仅用一周时间借助 Codex 完成并上线 iOS 旅行票根应用

事件分析

联合国专家组首份报告：AI 能力进步已超科学认知，自主系统缺乏有效控制

事件分析

十年后重写经典：Curvytron 2 展示 Three.js 渲染优化与 Go 语言高并发技术

事件分析

Meta内部AI滥用成灾：单月消耗70万亿Token，紧急转向自研工具治理成本

事件分析

最新文章

热门专题

热门标签

网站统计

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。