Pablo Castro 把 agent 的知识拆成三类

Pablo Castro 来自 Microsoft，是 CVP 和 Distinguished Engineer。他这场 “On AI and Knowledge” 很适合作为第一天的开篇，因为 software factory 的第一块地基不是代码生成，而是 agent 到底靠什么知道该做什么。

原视频：https://www.youtube.com/watch?v=htM02KMNZnk

intrinsic knowledge：模型权重里的知识

Pablo 先把知识分成三类：intrinsic、extrinsic、learned。Intrinsic knowledge 是模型训练时吸收进权重里的知识，也就是大家常说的 parametric memory。

他用代码开发举例。25 年前写一段代码，人要坐下来，靠自己知道的东西和临时查到的资料，把代码写出来。后来 IntelliSense 出现，开发者不用再记函数签名。再过 22 年，机器学习开始帮 IntelliSense 排序。然后 GitHub Copilot 出现，代码补全从 “给候选项” 变成 “直接生成一段可能可用的代码”。

他把这个过程看成指数曲线。GitHub Copilot、ChatGPT 和早期 coding agent 的爆发，很大一部分靠的就是模型本身已经知道很多东西。模型在训练里见过大量代码、文档、模式和惯用写法，所以能直接写、解释、补全。

这层知识很强，但它有边界。模型知道公共世界，不等于知道你的公司、你的权限、你的客户、你的事故历史。软件工厂如果只靠 intrinsic knowledge，就像一个新员工背了很多书，却没进过你的公司。

extrinsic knowledge：组织里的外部知识

第二类是 extrinsic knowledge。Pablo 说，agent 要参与公司工作，必须接触组织里的 ambient data：SharePoint 文档、邮件、日历、聊天线程、人员关系、数据仓库、Power BI 报表，以及公开 web。

Microsoft 的做法是把这些入口组织成 Microsoft IQ、Work IQ、Fabric IQ、Foundry IQ、Web IQ 等能力。它们不是一个单点功能，而是一组让 agent 进入企业知识环境的方式。

他还讲了 retrieval 的演进。行业一开始把 RAG 做得很低技术：向量化、找相似 chunk、塞回 prompt。后来大家发现，真实场景里只算 cosine similarity 不够。单一方法往往比不上组合方法。Azure AI Search 和 Foundry IQ 会把 chunking、vectorization、lexical retrieval、ranking、agentic retrieval 等层叠起来。

这点很重要。很多团队以为 “有个向量库” 就等于 agent 有知识。Pablo 的意思更接近：agent 的知识入口要分层。简单场景可以自动处理 PDF、图片和 blob storage；专家场景则要能下钻到底层 index，控制 vector quantization、lexical retrieval、ranking 等参数。

learned knowledge：工作过程本身成为知识

第三类 learned knowledge 最值得细想。它不是训练前已有的知识，也不是外部检索来的资料，而是人和 agent 在做事时留下的经验。

Pablo 提到，组织每天都在执行任务、产生结果、留下 trace。过去这些过程大多只是日志和审计材料。现在 agent 做事以后，系统可以观察过程，识别哪里失败、哪里高效、哪些步骤可以自动调优。

这和 Satya 关于人和 agent 复合增长的说法呼应。公司真正独特的东西，不只是文档，而是 “我们是怎么做事的”。如果这些流程能被记录、分析、反馈到 agent 和工具里，组织知识就不再只是静态资料库。

我自己的理解是，Pablo 这场给 software factory 加了一层知识论。一个 agent 要在企业里可靠工作，至少要同时具备三件事：模型权重里的常识和技能、组织系统里的实时知识、执行过程中沉淀出来的经验。

这也解释了为什么单纯堆 prompt 不够。prompt 只是一次上下文。软件工厂需要的是能持续管理知识的系统。

三类知识的差别，决定 agent 的上限

这场最容易被低估的是三类知识的边界。Model knowledge 给 agent 常识和通用能力，grounded knowledge 给它当前任务的真实材料，learned knowledge 给它组织自己的经验。

很多团队现在的问题，是把 grounded knowledge 当成万能解法。接上文档库、接上搜索、接上数据库，好像 agent 就会懂公司。但外部检索只能回答“资料里有什么”，不能自动回答“我们过去踩过什么坑”“这个团队默认怎么做”“这个客户为什么特殊”。这些东西要靠 learned knowledge，也就是执行过程里的反馈和沉淀。

Pablo 讲 Microsoft IQ、Work IQ、Fabric IQ、Foundry IQ、Web IQ，其实是在拆企业知识的入口。邮件、日历、文档、数据仓库、代码、网页，不是同一种上下文。agent 要想工作，不能把它们都塞进一个 prompt，而要知道不同知识源的权限、时效、可信度和用途。

这对企业 AI 项目很残酷

很多企业 AI 项目失败，不是模型太弱，而是知识系统太乱。文档没人维护，权限边界不清，数据口径冲突，历史决策散在聊天记录里。这样的组织就算接入最强模型，agent 也只能在脏上下文里猜。

真正的准备工作反而很朴素：把重要流程写清楚，把结构化数据口径统一，把可公开和不可公开的资料分层，把过去任务的成功与失败留痕。Pablo 的演讲给了一个判断标准：如果一个新人进公司都很难找到答案，agent 也不会突然变聪明。

所以，知识不是 RAG 的同义词。知识是一个组织能否让智能系统可靠工作的底层资产。软件工厂如果没有这层地基，后面的自动编码、自动 review、自动部署都会摇晃。

来源与说明

本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息，以及本地 AI engineering 知识库整理。文章不是逐字稿，而是按单场分享的主线、上下文和工程启发重写。

事件分析

从技术实现角度看，该项目采用了“视觉重构”的思路，利用模型能力解构AI生成的图像并将其还原为结构化的文档对象，打破了非结构化图像与可编辑文档之间的壁垒。这标志着AIGC在办公领域的应用正从单纯的内容生成向“工程化落地”迈进，解决了AI生成内容难以集成到现有工作流中的痛点。其“先生成效果图、后逆向还原”的策略，平衡了生成质量与编辑灵活性，为AI Agent在复杂文档处理任务中的落地提供了极具价值的参考范式。

💡 核心观点：突破视觉美感与编辑性的矛盾，该项目展示了AI办公工具从“生成图片”向“还原工程文件”进化的关键路径。

事件分析

SharkTTY 的出现反映了移动办公场景下对“沉浸式远程体验”的特定需求，尤其是针对 Apple 生态内部的互联优化。现有的 iOS 远程桌面方案大多是对传统 PC 逻辑的直接移植，未能有效解决触摸屏与高精度 GUI 操作之间的割裂感。该项目通过重构鼠标放大机制和软键盘布局，展示了在非原生输入设备上进行精细化操作的可能性。从技术架构看，其基于 iCloud Keychain 的本地化凭证存储策略符合零信任安全趋势，有效规避了云端数据泄露风险。同时，该产品契合了“Vibe Coding”这一新兴趋势，即追求随时随地、低负担的编程状态，将 iPad 从单纯的消费内容设备转变为具备实际生产力属性的临时工作站。尽管其生态目前主要局限于 Apple 设备间互联，但这种针对垂直场景的深度体验优化，对于提升移动端开发工具的可用性具有积极示范意义。

💡 核心观点：SharkTTY 填补了 iPad 生产力短板，将触控设备转化为高效的移动开发终端。

事件分析

该开源项目展示了大模型在个人知识管理领域的典型应用范式，即从单纯的“信息搬运”转向“信息提炼”。技术上，它结合了传统的 RSS 爬虫技术与 LLM 的自然语言处理能力，构建了一套低成本的内容生成管线。这种架构有效降低了海量信息筛选的认知负荷，标志着个人助手类工具正从简单的列表罗列进化为具备归纳能力的智能体。对于开发者社区而言，此类工具的普及反映了“AI 原生”应用的一种趋势：利用模型能力重塑传统工作流。该项目采用 Docker 部署并适配常见邮箱服务，降低了部署门槛，有利于在技术圈子内传播，为个人打造私有的 AI 信息中台提供了可落地的参考模板。

💡 核心观点：利用大模型对传统RSS流进行二次清洗与提炼，标志着个人情报获取方式正从被动接收向智能聚合的“AI流”进化。

事件分析

该案例生动展示了AI智能体在处理复杂C++遗留代码时的辅助效能。通过自然语言交互，开发者无需深入阅读全部源码即可定位到PeerData等关键逻辑层级，这显著降低了客户端逆向工程和二次开发的门槛。这种“描述需求-代码分析-测试反馈”的闭环开发模式，体现了AI编程工具从简单的代码补全向逻辑推理与系统分析方向的进化。对于开源社区而言，这意味未来将有更多非专业开发者能够利用AI对现有软件进行个性化改造，从而推动开源生态的多样化和定制化发展。

💡 核心观点：AI智能体正将普通用户转化为具备定制能力的开发者，大幅降低了客户端软件个性化修改的技术门槛。

事件分析

从技术架构与风控层面分析，该事件揭示了 SaaS 服务的“状态一致性”问题。OpenAI 的订阅验证可能采用了软状态机制，即后端扣费失败或订阅到期时，前端的鉴权系统并未立即阻断服务访问，从而产生了“宽限期”。这种设计通常是为了避免因网络抖动或支付延迟导致的误伤，但显然被灰产利用。对于通过“成品号”获客的用户，这往往是 OpenAI 批量清理行动前的静默期。长期来看，OpenAI 极大概率会通过账期校验进行回溯封禁。该事件不仅体现了大模型服务在商业化过程中的计费鲁棒性问题，也折射出当前 AI 付费市场中，官方高价与灰产低价之间的博弈现状。

💡 核心观点：ChatGPT 计费系统存在鉴权滞后，'逾期未停' 现象暴露了 SaaS 服务在灰产对抗中的缓冲漏洞。

事件分析

该讨论折射出当前AI编程工具市场的分层现状。一方面，以DeepSeek、GLM为代表的国产大模型凭借极致的性价比和本地化部署优势，正在大规模渗透开发者市场，缓解了因海外模型API高额费用及账号封禁风险带来的焦虑。另一方面，在IDE深度集成、复杂逻辑推理及精准代码修正等高阶场景中，Claude Code和OpenAI o1/Claude 3.5 Sonnet等模型仍凭借强大的基座能力占据统治地位。技术上的差距可能源于训练数据中代码语料的质量与占比、模型对上下文窗口的利用效率以及工具调用的稳定性。随着国产模型在DeepSeek-R1等推理模型上的突破，这种差距正在迅速缩小，但短期内“高端自用、低端降本”或将成为开发者的常态策略。

💡 核心观点：国产大模型在通用能力上已大幅追赶，但在复杂代码生成与IDE深度交互场景下，与Claude等顶尖模型仍存在显著体验代差，成本倒逼开发者寻找替代方案成为当前常态。

Pablo Castro 把 agent 的知识拆成三类

intrinsic knowledge：模型权重里的知识

extrinsic knowledge：组织里的外部知识

learned knowledge：工作过程本身成为知识

三类知识的差别，决定 agent 的上限

这对企业 AI 项目很残酷

来源与说明

相关推荐

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

开源新方案：将AI生成的图片型PPT转化为可编辑文档

事件分析

SharkTTY：让 iPad 变身高效远程开发终端，支持多屏与 Vibe Coding

事件分析

开源项目利用大模型将每日RSS与GitHub热点自动投递至邮箱

事件分析

开发者实战：利用AI智能体修改Telegram源码，屏蔽“辣眼睛”头像

事件分析

ChatGPT Plus订阅过期仍可用？计费系统现漏洞，灰产账号获额外延长

事件分析

开发者实测：国产大模型能否替代Claude Code？编程场景下的体验差距探讨

事件分析

最新文章

热门专题

热门标签

网站统计

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。