云聚 AI Token Plan 满 199 减 35 元
port:80 AI Junkie
AI 重度玩家的工程笔记本
DigitalOcean 开发者云

Pablo Castro 把 agent 的知识拆成三类

云聚 AI Token Plan 满 199 减 35 元

Pablo Castro 来自 Microsoft,是 CVP 和 Distinguished Engineer。他这场 “On AI and Knowledge” 很适合作为第一天的开篇,因为 software factory 的第一块地基不是代码生成,而是 agent 到底靠什么知道该做什么。

原视频:https://www.youtube.com/watch?v=htM02KMNZnk

阿里云 OPC 一人公司创业装备库

intrinsic knowledge:模型权重里的知识

Pablo 先把知识分成三类:intrinsic、extrinsic、learned。Intrinsic knowledge 是模型训练时吸收进权重里的知识,也就是大家常说的 parametric memory。

他用代码开发举例。25 年前写一段代码,人要坐下来,靠自己知道的东西和临时查到的资料,把代码写出来。后来 IntelliSense 出现,开发者不用再记函数签名。再过 22 年,机器学习开始帮 IntelliSense 排序。然后 GitHub Copilot 出现,代码补全从 “给候选项” 变成 “直接生成一段可能可用的代码”。

他把这个过程看成指数曲线。GitHub Copilot、ChatGPT 和早期 coding agent 的爆发,很大一部分靠的就是模型本身已经知道很多东西。模型在训练里见过大量代码、文档、模式和惯用写法,所以能直接写、解释、补全。

这层知识很强,但它有边界。模型知道公共世界,不等于知道你的公司、你的权限、你的客户、你的事故历史。软件工厂如果只靠 intrinsic knowledge,就像一个新员工背了很多书,却没进过你的公司。

extrinsic knowledge:组织里的外部知识

第二类是 extrinsic knowledge。Pablo 说,agent 要参与公司工作,必须接触组织里的 ambient data:SharePoint 文档、邮件、日历、聊天线程、人员关系、数据仓库、Power BI 报表,以及公开 web。

Microsoft 的做法是把这些入口组织成 Microsoft IQ、Work IQ、Fabric IQ、Foundry IQ、Web IQ 等能力。它们不是一个单点功能,而是一组让 agent 进入企业知识环境的方式。

他还讲了 retrieval 的演进。行业一开始把 RAG 做得很低技术:向量化、找相似 chunk、塞回 prompt。后来大家发现,真实场景里只算 cosine similarity 不够。单一方法往往比不上组合方法。Azure AI Search 和 Foundry IQ 会把 chunking、vectorization、lexical retrieval、ranking、agentic retrieval 等层叠起来。

这点很重要。很多团队以为 “有个向量库” 就等于 agent 有知识。Pablo 的意思更接近:agent 的知识入口要分层。简单场景可以自动处理 PDF、图片和 blob storage;专家场景则要能下钻到底层 index,控制 vector quantization、lexical retrieval、ranking 等参数。

learned knowledge:工作过程本身成为知识

第三类 learned knowledge 最值得细想。它不是训练前已有的知识,也不是外部检索来的资料,而是人和 agent 在做事时留下的经验。

Pablo 提到,组织每天都在执行任务、产生结果、留下 trace。过去这些过程大多只是日志和审计材料。现在 agent 做事以后,系统可以观察过程,识别哪里失败、哪里高效、哪些步骤可以自动调优。

这和 Satya 关于人和 agent 复合增长的说法呼应。公司真正独特的东西,不只是文档,而是 “我们是怎么做事的”。如果这些流程能被记录、分析、反馈到 agent 和工具里,组织知识就不再只是静态资料库。

我自己的理解是,Pablo 这场给 software factory 加了一层知识论。一个 agent 要在企业里可靠工作,至少要同时具备三件事:模型权重里的常识和技能、组织系统里的实时知识、执行过程中沉淀出来的经验。

这也解释了为什么单纯堆 prompt 不够。prompt 只是一次上下文。软件工厂需要的是能持续管理知识的系统。

三类知识的差别,决定 agent 的上限

这场最容易被低估的是三类知识的边界。Model knowledge 给 agent 常识和通用能力,grounded knowledge 给它当前任务的真实材料,learned knowledge 给它组织自己的经验。

很多团队现在的问题,是把 grounded knowledge 当成万能解法。接上文档库、接上搜索、接上数据库,好像 agent 就会懂公司。但外部检索只能回答“资料里有什么”,不能自动回答“我们过去踩过什么坑”“这个团队默认怎么做”“这个客户为什么特殊”。这些东西要靠 learned knowledge,也就是执行过程里的反馈和沉淀。

Pablo 讲 Microsoft IQ、Work IQ、Fabric IQ、Foundry IQ、Web IQ,其实是在拆企业知识的入口。邮件、日历、文档、数据仓库、代码、网页,不是同一种上下文。agent 要想工作,不能把它们都塞进一个 prompt,而要知道不同知识源的权限、时效、可信度和用途。

这对企业 AI 项目很残酷

很多企业 AI 项目失败,不是模型太弱,而是知识系统太乱。文档没人维护,权限边界不清,数据口径冲突,历史决策散在聊天记录里。这样的组织就算接入最强模型,agent 也只能在脏上下文里猜。

真正的准备工作反而很朴素:把重要流程写清楚,把结构化数据口径统一,把可公开和不可公开的资料分层,把过去任务的成功与失败留痕。Pablo 的演讲给了一个判断标准:如果一个新人进公司都很难找到答案,agent 也不会突然变聪明。

所以,知识不是 RAG 的同义词。知识是一个组织能否让智能系统可靠工作的底层资产。软件工厂如果没有这层地基,后面的自动编码、自动 review、自动部署都会摇晃。

来源与说明

本文基于 AI Engineer World’s Fair 2026 Day 1 主舞台视频转录、官方日程信息,以及本地 AI engineering 知识库整理。文章不是逐字稿,而是按单场分享的主线、上下文和工程启发重写。

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:80aj » Pablo Castro 把 agent 的知识拆成三类
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐