Dex Horthy 说 harness 不能救所有问题

Dex Horthy 的题目很直接：”Harness Engineering is not Enough”。这场和前面很多演讲形成张力。当天大家都在讲 harness、loop、workflow，他提醒大家：不要以为外层系统能解决所有模型问题。

原视频：https://www.youtube.com/watch?v=htM02KMNZnk

这不是 skill issue

Dex 开场就说，这不是 skill issue。再多 harness engineering、再多 loop maxing，也不能解决某些模型训练层的问题。

这句话很重要。过去一段时间，AI coding 社区有一种乐观叙事：模型只要放进足够好的 harness，就能完成越来越复杂的软件工作。加上下文、加工具、加测试、加 retry、加 reviewer，系统好像会自然变强。

Dex 并不是否定这些东西。他反对的是把所有失败都解释成 “我们还没把 harness 搭好”。有些失败来自模型训练本身，比如模型对长期维护性、复杂抽象、真实代码库约束、测试边界的理解不够。

坏代码会复利

他讨论了 coding model 的训练方式、benchmark 的局限，以及复杂代码库里的维护性问题。很多 benchmark 测的是能不能解一个封闭任务，但真实工程里的任务不是这样。真实任务有历史包袱、团队规范、性能约束、安全边界和未来维护成本。

如果模型生成的代码只是 “当前能跑”，但破坏了抽象、污染了测试、绕过了安全边界，短期看是进展，长期看是债务。更麻烦的是，如果再让 agent 修 agent 造成的问题，坏抽象可能会一层层滚大。

这和本地知识库里 “comprehension debt” 的概念一致：loop 越快生成你没理解的代码，仓库内容和团队理解之间的差距越大。真正账单会在以后 debug 时出现。

harness 还是重要，但不是万能

我自己的判断是，Dex 不是反对 harness。他反对的是一种幻觉：只要把模型放进足够复杂的 loop，软件工厂就会自动成立。

更现实的看法是双层改进。外层系统要更可验证：spec、tests、permissions、trace、review、rollback 都要强。底层模型也要为真实工程任务训练：长期代码库、维护性、跨文件依赖、安全约束、团队规范，都应该进入训练和评估。

这场给 software factory 降温很必要。否则大家会把所有风险都包装成 workflow 问题，然后在生产里发现模型本身没有学会某些工程判断。

软件工厂不是 harness 胜利，也不是模型胜利。它是模型能力和外层系统共同进化。少任何一边，都不稳。

Dex 挑战的是当下最流行的解释

过去一年，很多人把 AI coding 的失败解释为 harness 问题：上下文没给够、工具没接好、测试没跑起来、权限没设计好。这个解释有很大部分是对的，但 Dex 说它不够。

他的观点是，有些失败不是外层系统能完全解决的，而是模型训练本身还没学会某些深层软件工程能力。比如长期维护性、复杂抽象边界、代码库历史约束、隐性架构原则，这些不是多接几个工具就自然解决。

这个提醒很必要。否则行业会陷入一种乐观幻觉：只要 harness 足够复杂，任何模型都能成为可靠工程师。

harness 和模型能力不能互相甩锅

我觉得更准确的说法是：harness 和模型能力是共同瓶颈。没有 harness，强模型也会在缺上下文和缺验证里乱跑；模型能力不够，再好的 harness 也只能限制它犯错，不能让它真正理解复杂任务。

这和现实团队很像。流程很好但人能力不足，产出仍然差；人很强但流程混乱，风险也很高。软件工厂需要两边一起成熟。

对团队的现实建议

Dex 这场会让团队更谨慎地评估 agent 任务。不要把所有任务都自动化，也不要把失败简单归因于 prompt 不好。

可以先把任务分层：机械改动、局部 bugfix、测试生成、文档补全，适合较高自动化；涉及架构、长期演进、复杂业务语义的任务，需要更强人类参与。这个分层不是保守，而是承认模型和 harness 都还在发展中。

来源与说明

本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息，以及本地 AI engineering 知识库整理。文章不是逐字稿，而是按单场分享的主线、上下文和工程启发重写。

事件分析

本项目不仅是游戏开发案例，更是现代 Web 图形技术与高性能后端架构优化的技术展示。通过针对 Three.js 的几何体生成逻辑进行底层优化，揭示了 WebGL 开发中 CPU 计算与 GPU 渲染之间的数据传输瓶颈，证明了预分配缓冲区在动态高频更新场景下的关键作用。后端采用 Go 语言配合二进制 WebSocket 协议，体现了在实时多人互动场景下，对网络延迟和带宽效率的极致追求。这种十年跨度下的技术迭代与重构，验证了浏览器原生技术在复杂交互和高性能计算方面的巨大潜力。

💡 核心观点：通过底层几何体优化与二进制网络协议的革新，该项目证明了 Web 技术栈在应对高性能实时渲染与高并发交互场景时的巨大潜力。

事件分析

该事件标志着企业级AI应用从“激进扩张”向“精细化治理”的关键转折。虽然大模型显著提升了编码效率，但高昂的推理成本使其成为企业不可忽视的财务负担。73.7万亿Token的单月消耗量揭示了外部API调用的巨大成本黑洞，这也是Meta强推内部工具替代Claude的根本动因——试图通过垂直整合将成本内部化。此外，打击“Tokenmaxxing”现象暴露了当前管理层的痛点：企业缺乏衡量AI实际产出的有效KPI，导致员工单纯追求Token消耗量。未来，具备精细计费、权限管控及效能分析的企业级AI网关将成为大厂基础设施的标配，降本增效将成为AI落地的主要叙事。

💡 核心观点：企业AI盲目烧钱时代终结，从堆算力转向控Token，证明降本增效才是大模型商业化的核心命题。

事件分析

此次辟谣事件揭示了科技巨头在 AI 硬件落地路径上的战略分野。尽管 AI 与硬件的结合已成趋势，但 SpaceX 的核心壁垒在于航天运输与卫星互联网（Starlink），切入竞争惨烈的智能手机市场并不符合其商业逻辑。马斯克对“AI 手机”传闻的否认，不仅是对不实信息的纠偏，也意在厘清公司业务边界：SpaceX 的 AI 布局将侧重于提升火箭算力、星链服务效率及支持 xAI 的云端基础设施，而非通过单一消费电子产品抢占市场。相比之下，微软推出的 AI 工牌等形态，代表了 AI 寻找新型硬件载体的尝试。SpaceX 若要推出终端，更大概率会是强绑卫星通讯功能的差异化设备，而非对现有手机形态的简单复制。

💡 核心观点：SpaceX 的战略重心在于构建卫星与航天基础设施，AI 技术落地将依托星链生态而非卷入智能手机红海。

事件分析

从技术视角来看，该讨论触及了 AI 原生开发中的“知识熵增”问题。Cursor 等工具通过长上下文窗口或自定义“技能”机制，试图将开发者的隐性思维显性化，构建个性化的 RAG（检索增强生成）知识库。然而，缺乏动态更新和去噪机制的静态文档堆砌，导致了知识库的“腐烂”，这反映了当前 AI Agent 在记忆管理和自我迭代能力上的局限。未来的开发工具竞争焦点，或将从单纯的代码生成准确性，转向如何构建具备“遗忘”和“精简”能力的动态知识库。技术上可能需要引入基于语义相似度的自动去重、版本控制或知识图谱技术，协助开发者从海量对话中真正蒸馏出高价值的方法论，而非简单的文本累积。

💡 核心观点：AI编程不仅是代码生成，更是知识管理，解决生成内容的“熵增”与“腐坏”是提升开发效率的下一关键。

事件分析

该事件折射出全球 AI 监管进程中“国家能力”与“市场机制”的深层矛盾。随着 AI 行政命令的实施，美国政府急需建立技术审查体系，但僵化的公务员薪酬体系使其在争夺顶尖 AI 安全人才时处于绝对劣势。这种“人才错配”可能导致监管机构对大模型风险的理解滞后于技术迭代，难以在保障安全与维持创新之间找到平衡点。此外，评论区关于“逆向激励”的讨论值得警惕：如果公共部门无法提供市场化回报，极易吸引利用履历作为跳板的投机者，而非真正致力于 AI 安全的技术专家。这标志着 AI 治理正从理论探讨走向实质性的官僚执行，但监管机构的自身能力建设或将成为最大短板。

💡 核心观点：官僚薪资难以匹敌业界红利，美国 AI 监管正面临严重的“人才错配”与技术脱节风险。

事件分析

从技术架构视角审视，OpenWiki代表了AI编程工具从“代码补全”向“代码认知”的进化。传统的开发工具主要解决语法生成，而OpenWiki解决的是语义索引问题，它将非结构化的代码转化为结构化的知识库，供Agent检索调用。这种“文档先行（Doc-first）”的维护模式，实际上是在构建一套专门服务于机器的中间层，降低了大模型理解私有代码库的难度。对于产业而言，这预示着软件开发工作流的深刻变革：未来的代码库可能需要维护两套文档，一套供人类阅读，一套供Agent索引，开发者将更多地扮演“知识工程师”的角色，确保AI能准确理解项目架构。此类工具将加速企业私有数据在AI开发场景下的落地，推动AI Agent从简单的对话机器人向具备工程落地能力的协作伙伴转变。

💡 核心观点：代码文档正从“人读”向“机读”演进，构建Agent可理解的语义地图是提升AI编程落地准确率的关键基建。

Dex Horthy 说 harness 不能救所有问题

这不是 skill issue

坏代码会复利

harness 还是重要，但不是万能

Dex 挑战的是当下最流行的解释

harness 和模型能力不能互相甩锅

对团队的现实建议

来源与说明

相关推荐

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

十年后重写经典：Curvytron 2 展示 Three.js 渲染优化与 Go 语言高并发技术

事件分析

Meta内部AI滥用成灾：单月消耗70万亿Token，紧急转向自研工具治理成本

事件分析

马斯克亲自辟谣：SpaceX 并未向投资者展示 AI 手机原型机，称报道“完全虚假”

事件分析

AI编程时代的知识管理挑战：开发者如何利用Cursor实现自我蒸馏

事件分析

美政府公开招聘AI模型审查员，薪资与能力引发争议

事件分析

LangChain推出OpenWiki：自动为代码库生成“AI Agent可读”文档的CLI工具

事件分析

最新文章

热门专题

热门标签

网站统计

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。