AI 的下一步不是更大的模型,是学会跟人合作

一门课的最后一讲,最能看出讲者真正在想什么。前面 11 讲是在搭骨架,数据、架构、对齐、融合、跨模态迁移、基础模型、强化学习,一块一块拼上去。到最后一讲,Paul Liang 不再讲新算法,而是退一步问:这些东西攒齐了,下一步应该长成什么样?

他的答案不是”再做大一号的模型”。他画了一张草图:多模态的输入,推理拆成多步,多模态的输出,然后在每一步都得有人能看懂、能打断、能纠错。他说这就是他心里的 AGI。说完顿了一下,补了一句:这只是个示意图。

这是 MIT《How to AI (Almost) Anything》的第 12 讲(原视频),主题是人机交互。

这一讲的总判断

把整堂课压成一句话:AI 接下来要解决的不是”做得更准”,而是”做得让人能跟得上”。

更准这件事,过去三年的 scaling 已经证明会继续涨。但 Paul 整堂课反复回到同一个矛盾:模型越强,人越不知道它什么时候会错;模态越多,偏见越容易复合;agent 自动化程度越高,人能介入的窗口越窄。这门课走到第 12 讲,他选了”人机交互”作为收尾,等于明说:下一阶段的瓶颈不在模型那一侧,在人和模型之间的那条缝。

这条缝怎么收?他给了两个方向。一个是把 agent 的工作流主动拆成人能看懂的层次,让人在中间能介入;另一个是他强烈推荐、但前 11 讲故意没讲的题目——quantification(模型行为的量化理解)。这两件事是这堂课真正的题眼,值得展开讲。

多模态推理 + agent + 人在回路:Paul 心里的 AGI 长什么样

Paul 给”下一代模型”画的草图很简单:左边是越来越多的输入模态,语言、视频、音频、传感器、医疗数据;中间是把难题拆成多步推理,每一步可能用语言推,也可能用图像证据、听觉证据;右边是多模态的输出。然后这个流程的每一步,都要有人能看懂、能介入、能问追问。

他举的第一个例子是他学生做的 interactive sketchpad——一个教几何的智能辅导系统。学生看不懂一道几何题卡住了,系统不直接给答案,先用语言提示”画一条垂线试试”,然后调用 matplotlib 代码画一张精确的辅助线图。学生在白板上接着画,卡住了再把自己的草图传回去,系统再给下一步提示。

这里有个看似不起眼但关键的设计选择:画图用代码而不是用扩散模型直接生图。代码是受限的,但角度、距离、坐标全部有保证;扩散模型更自由,但你没法保证它把直角画成直角。教学场景里,正确比好看重要得多,所以选了代码这条更窄的路。

这个取舍我特别认同。在工程现场也是一样:你给机器人下指令”绕开前方障碍物”,用自然语言生成动作序列听起来很酷,但你没法保证它每次都生成合规的动作;改成生成一段路径规划代码、扔进规划器执行,空间变小了,但行为可验证。越靠近物理世界,生成空间越要收窄。

第二个例子是 web agent——一个能在网页上替你买东西的智能体。任务是”在某品类下买一个评分 4.5 星以上、价格 60 美元以下的产品”。直接让模型一口气干完,它会在”商品”和”价格”两个维度上同时犯糊涂。Paul 的做法是把任务拆成两层:高层规划(先搜商品,再筛价格,再排序,再下单)和低层动作(点击搜索框、输入字符、回车、滚动)。两层都是 LLM,但分工不同,上层 LLM 负责出 plan,下层 LLM 把每一步 plan 翻译成具体的鼠标键盘动作。

光拆开还不够,关键是人怎么知道什么时候该插手。Paul 给了一个很巧的办法:让模型对同一步动作连续生成 K 次,如果 K 次结果几乎一样,说明它有把握;如果 K 次差异很大,说明它自己也没谱。这就是不确定性的代理信号,不需要模型显式吐出置信度,反正现在的 API 大多也吐不出可靠的置信度。

模型一旦显示出”五次回答五个样”,系统就停下,把当前状态丢给人,人写一句”现在应该按价格从低到高排序”,模型接着往下跑。一次人为打断,后面的步骤准确率明显抬上去。这个机制小,但思路是对的:不是让人全程盯着,而是让模型知道自己不知道,然后只在那个时刻找人。

quantification:这门课故意压到最后才讲的东西

讲到最后十分钟,Paul 切到一个他自己说”前 11 讲都没怎么讲、但其实最重要”的题目——quantification。他给的定义是:对模型短板的经验和理论研究,以预测和控制模型的行为。

注意这个定义里没有”做新模型”,全是”理解和控制现有模型”。Paul 解释为什么压到最后讲:因为前 11 讲都在搭新东西,加新模态、加新架构、加新训练方法。但一个模型搭好之后,你怎么知道它什么时候会坏?为什么会坏?能不能预测它在新数据上的行为?这套问题没人愿意单独立成一门课,但它决定了一个模型能不能真的被用。

他举了三件具体的事来撑这个判断。

第一件是 jailbreak 的边界。语言模型现在你直接问”怎么做炸弹”会拒绝,你换个句式、绕个弯,它就告诉你。Paul 的态度是:别指望模型 100% 安全,jailbreak 的空间是无穷的,你能做的是降低概率,而不是消灭。这条对部署系统的人是个清醒剂。

第二件是多模态会放大偏见,不会稀释。他们做了一组实验,把语言模型和视觉模型拼到一起,给它看不同人种、不同性别的人拿着不同物品的图,问”这个人的职业是什么”。结果是:单独的视觉模型有偏见,单独的语言模型有偏见,拼在一起偏见变得更强了——模型对自己的偏见更有”信心”,因为图像和文字”两个证据都指向同一个结论”。把模态加起来,直觉上是更全面,实际上是偏见复合。

第三件是 robustness 和 accuracy 负相关。他们两年前做过一项规模较大的研究,跑了一堆大模型,给输入加各种噪声(图像模糊、文本错别字、视频抖动),看性能掉多少。结论让人不舒服:起点准确率越高的模型,在加噪声后掉的幅度越大。这事意味着排行榜上的 SOTA 跟现实部署的鲁棒性,不是一回事,有时候甚至是反的。

那 quantification 这件事怎么衡量?Paul 给了个绕弯的办法:让人去模拟模型。如果你声称弄懂了模型某个行为(比如”这个模型更看颜色而不是形状”),那就给人一个新输入,让他猜模型会输出什么——猜对的次数,就是你”理解程度”的代理指标。反过来,让人根据你声明的理解去 debug 模型,如果 debug 能改进性能,说明你的理解是真的。

这个评估方法听起来粗糙,但底层逻辑很硬:所谓”理解”如果不能用来预测、不能用来修,就只是事后解释。

我的现场补充:把这些东西放到机器人上看

我做的是机器人云服务,Paul 这一讲里的每一条,在机器人这个具身系统上几乎都能找到对应物。这一节专门讲怎么把这堂课接到现场。

高层规划 / 低层动作的两层拆分,在机器人这边叫 task planner 和 motion planner。比如一台清洁机器人接到”去 B1 区把刚才打翻的水清理掉”,task planner 先把它拆成”导航到 B1 → 识别液体区域 → 切到擦地模式 → 规划清洁路径 → 回到充电桩”;motion planner 再把每一段拆成轮速、转向角、刷盘转速、水量阀门开度。这套架构机器人圈用了几十年,但跟 LLM agent 套上是最近这两年的事。Paul 那个 web agent 把”搜商品+筛价格”两步切开能涨准确率,在机器人这边对应的是:任务越具体,生成空间越小,出错越少。我们自己的经验是,直接让大模型端到端输出”下一秒的轮速指令”几乎必崩,但让它先输出”接下来 3 米应该绕开右前方的玻璃柜台、向左走”这样的中等粒度指令,再交给底层控制器,效果显著好。

K 次采样测不确定度,这个机制在机器人上比在网页 agent 上更值钱。机器人面对的不确定性比网页 agent 多得多,玻璃门激光雷达打不到、镜面反光地面里程计打滑、楼宇电梯里 4G 信号断断续续、自动门突然弹开。我们现场最头疼的不是模型分错类,而是模型自己不知道分错了,然后拿着错误判断硬执行下去。Paul 那个”同一个 plan 重复采样 K 次看分布”的思路,直接可以平移到导航决策上:同一个路口让感知模型连续推 5 次,5 次都说”可通过”,就走;5 次有 3 次说”不确定有没有玻璃”,就停下,要么让远程客服值守人员看一眼,要么换条路。这种”模型知道自己不知道”的信号,是把人放进回路最自然的入口。

多模态偏见复合,在机器人这边是另一种形态:多传感器一起出错时,故障定位变难。激光雷达说前方 1.2 米有障碍,深度相机说没有,IMU 说机身在轻微抖动,碰撞传感器没触发。哪个对?如果上层有个融合模型,把这几路信号一起喂进去出一个”前方畅通”的结论,然后机器人撞上去——你事后翻日志,会发现单看每一路传感器都说”我觉得不太对”,但融合模型对错误结论非常自信。Paul 在 vision+language 那个实验里看到的”两个证据一致就更确信”的失败模式,在机器人多传感器融合上一模一样。我们现在做法是,关键决策路径必须保留单模态可回溯通道,不允许融合模型把原始信号吃干净,这样故障复盘时能拆开看是哪一路在骗自己。

robust 和 accuracy 负相关,这条在机器人感知模型上是血泪教训。在实验室样板间标注得整整齐齐的数据集上,新模型比老模型 mAP 高 4 个点,看起来该上;部署到真实商场,反光地砖、节日装饰、午高峰人流密集、玻璃幕墙反射,新模型反而比老模型多出一倍的误识别。Paul 那个研究给了个干净的解释:为了刷高准确率做的种种 trick,本身就是过拟合到测试集分布的代价。我们现在评估新版本感知模型,除了准确率,还要看在加入合成噪声(运动模糊、镜头眩光、随机遮挡)后性能掉了多少;掉得少的版本,即使峰值低一点也优先上。

quantification 这件事是机器人云服务最该做但最少有人做的。机器人队伍铺到几千台、几万台之后,模型出错是必然的,问题不是”会不会错”,而是”错了之后能多快定位、能不能预测下一次会在哪里错”。Paul 提的那套”让人去模拟模型行为”的评估思路,落到我们这边可以变成一个具体动作:让现场运维工程师在新模型上线前,看一批典型 case,猜模型会怎么判;猜得越准,说明这个模型对运维团队来说越透明,出问题时越容易快速止血。透明度本身就是部署价值。

收束

Paul 在最后一句话之前停了几秒,他说做这个课的初衷,是希望学生离开教室之后,看到一个新模态、新数据、新场景,知道该怎么往下想——而不是只记得几个算法的名字。

听到这里我合上笔记。前 11 讲讲的是工具,这一讲讲的是用工具的人,以及工具和人之间那条永远闭不上的缝。这条缝是 feature,不是 bug;它会成为接下来三五年所有有意思的工程问题的发源地。模型会继续变大,但”让人能跟上模型”这件事,才是真正需要被设计出来的。

整个系列写到这里,12 篇逐讲解读告一段落。机器人这一行,刚好站在多模态、agent、人机协同这三件事的交叉口上,Paul 这门课对我来说不能听完就过,接下来每次设计新系统时都会翻回来对照,当成一本工作手册。

本系列

MIT《How to AI (Almost) Anything》共 12 讲,这是我的逐讲解读:

这门 MIT 课不教模型,教你怎么”想” AI
怎么做 AI 研究:读论文、找想法、快速验证
数据、结构与信息
实用 AI 工具
常见模型架构
多模态对齐
多模态融合
跨模态迁移
大型基础模型
大型多模态模型
强化学习与交互
AI 的下一步不是更大的模型,是学会跟人合作 (本篇)

这一讲的总判断

多模态推理 + agent + 人在回路:Paul 心里的 AGI 长什么样

quantification:这门课故意压到最后才讲的东西

我的现场补充:把这些东西放到机器人上看

收束

本系列

相关推荐