云聚 AI Token Plan 满 199 减 35 元
AI编程 · 架构思考 · 技术人生
DigitalOcean 开发者云

AI 的下一步不是更大的模型,是学会跟人合作

#MIT《How to AI (Almost) Anything》:多模态 AI 逐讲精读
云聚 AI Token Plan 满 199 减 35 元

一门课的最后一讲,最能看出讲者真正在想什么。前面 11 讲是在搭骨架,数据、架构、对齐、融合、跨模态迁移、基础模型、强化学习,一块一块拼上去。到最后一讲,Paul Liang 不再讲新算法,而是退一步问:这些东西攒齐了,下一步应该长成什么样?

他的答案不是”再做大一号的模型”。他画了一张草图:多模态的输入,推理拆成多步,多模态的输出,然后在每一步都得有人能看懂、能打断、能纠错。他说这就是他心里的 AGI。说完顿了一下,补了一句:这只是个示意图。

阿里云 OPC 一人公司创业装备库

这是 MIT《How to AI (Almost) Anything》的第 12 讲(原视频),主题是 人机交互。

这一讲的总判断

把整堂课压成一句话:AI 接下来要解决的不是”做得更准”,而是”做得让人能跟得上”

更准这件事,过去三年的 scaling 已经证明会继续涨。但 Paul 整堂课反复回到同一个矛盾:模型越强,人越不知道它什么时候会错;模态越多,偏见越容易复合;agent 自动化程度越高,人能介入的窗口越窄。这门课走到第 12 讲,他选了”人机交互”作为收尾,等于明说:下一阶段的瓶颈不在模型那一侧,在人和模型之间的那条缝。

这条缝怎么收?他给了两个方向。一个是把 agent 的工作流主动拆成人能看懂的层次,让人在中间能介入;另一个是他强烈推荐、但前 11 讲故意没讲的题目——quantification(模型行为的量化理解)。这两件事是这堂课真正的题眼,值得展开讲。

多模态推理 + agent + 人在回路:Paul 心里的 AGI 长什么样

Paul 给”下一代模型”画的草图很简单:左边是越来越多的输入模态,语言、视频、音频、传感器、医疗数据;中间是把难题拆成多步推理,每一步可能用语言推,也可能用图像证据、听觉证据;右边是多模态的输出。然后这个流程的每一步,都要有人能看懂、能介入、能问追问。

他举的第一个例子是他学生做的 interactive sketchpad——一个教几何的智能辅导系统。学生看不懂一道几何题卡住了,系统不直接给答案,先用语言提示”画一条垂线试试”,然后调用 matplotlib 代码画一张精确的辅助线图。学生在白板上接着画,卡住了再把自己的草图传回去,系统再给下一步提示。

这里有个看似不起眼但关键的设计选择:画图用代码而不是用扩散模型直接生图。代码是受限的,但角度、距离、坐标全部有保证;扩散模型更自由,但你没法保证它把直角画成直角。教学场景里,正确比好看重要得多,所以选了代码这条更窄的路。

这个取舍我特别认同。在工程现场也是一样:你给机器人下指令”绕开前方障碍物”,用自然语言生成动作序列听起来很酷,但你没法保证它每次都生成合规的动作;改成生成一段路径规划代码、扔进规划器执行,空间变小了,但行为可验证。越靠近物理世界,生成空间越要收窄

第二个例子是 web agent——一个能在网页上替你买东西的智能体。任务是”在某品类下买一个评分 4.5 星以上、价格 60 美元以下的产品”。直接让模型一口气干完,它会在”商品”和”价格”两个维度上同时犯糊涂。Paul 的做法是把任务拆成两层:高层规划(先搜商品,再筛价格,再排序,再下单)和低层动作(点击搜索框、输入字符、回车、滚动)。两层都是 LLM,但分工不同,上层 LLM 负责出 plan,下层 LLM 把每一步 plan 翻译成具体的鼠标键盘动作。

光拆开还不够,关键是人怎么知道什么时候该插手。Paul 给了一个很巧的办法:让模型对同一步动作连续生成 K 次,如果 K 次结果几乎一样,说明它有把握;如果 K 次差异很大,说明它自己也没谱。这就是不确定性的代理信号,不需要模型显式吐出置信度,反正现在的 API 大多也吐不出可靠的置信度。

模型一旦显示出”五次回答五个样”,系统就停下,把当前状态丢给人,人写一句”现在应该按价格从低到高排序”,模型接着往下跑。一次人为打断,后面的步骤准确率明显抬上去。这个机制小,但思路是对的:不是让人全程盯着,而是让模型知道自己不知道,然后只在那个时刻找人

quantification:这门课故意压到最后才讲的东西

讲到最后十分钟,Paul 切到一个他自己说”前 11 讲都没怎么讲、但其实最重要”的题目——quantification。他给的定义是:对模型短板的经验和理论研究,以预测和控制模型的行为

注意这个定义里没有”做新模型”,全是”理解和控制现有模型”。Paul 解释为什么压到最后讲:因为前 11 讲都在搭新东西,加新模态、加新架构、加新训练方法。但一个模型搭好之后,你怎么知道它什么时候会坏?为什么会坏?能不能预测它在新数据上的行为?这套问题没人愿意单独立成一门课,但它决定了一个模型能不能真的被用

他举了三件具体的事来撑这个判断。

第一件是 jailbreak 的边界。语言模型现在你直接问”怎么做炸弹”会拒绝,你换个句式、绕个弯,它就告诉你。Paul 的态度是:别指望模型 100% 安全,jailbreak 的空间是无穷的,你能做的是降低概率,而不是消灭。这条对部署系统的人是个清醒剂。

第二件是多模态会放大偏见,不会稀释。他们做了一组实验,把语言模型和视觉模型拼到一起,给它看不同人种、不同性别的人拿着不同物品的图,问”这个人的职业是什么”。结果是:单独的视觉模型有偏见,单独的语言模型有偏见,拼在一起偏见变得更强了——模型对自己的偏见更有”信心”,因为图像和文字”两个证据都指向同一个结论”。把模态加起来,直觉上是更全面,实际上是偏见复合。

第三件是 robustness 和 accuracy 负相关。他们两年前做过一项规模较大的研究,跑了一堆大模型,给输入加各种噪声(图像模糊、文本错别字、视频抖动),看性能掉多少。结论让人不舒服:起点准确率越高的模型,在加噪声后掉的幅度越大。这事意味着排行榜上的 SOTA 跟现实部署的鲁棒性,不是一回事,有时候甚至是反的。

那 quantification 这件事怎么衡量?Paul 给了个绕弯的办法:让人去模拟模型。如果你声称弄懂了模型某个行为(比如”这个模型更看颜色而不是形状”),那就给人一个新输入,让他猜模型会输出什么——猜对的次数,就是你”理解程度”的代理指标。反过来,让人根据你声明的理解去 debug 模型,如果 debug 能改进性能,说明你的理解是真的。

这个评估方法听起来粗糙,但底层逻辑很硬:所谓”理解”如果不能用来预测、不能用来修,就只是事后解释

我的现场补充:把这些东西放到机器人上看

我做的是机器人云服务,Paul 这一讲里的每一条,在机器人这个具身系统上几乎都能找到对应物。这一节专门讲怎么把这堂课接到现场。

高层规划 / 低层动作的两层拆分,在机器人这边叫 task planner 和 motion planner。比如一台清洁机器人接到”去 B1 区把刚才打翻的水清理掉”,task planner 先把它拆成”导航到 B1 → 识别液体区域 → 切到擦地模式 → 规划清洁路径 → 回到充电桩”;motion planner 再把每一段拆成轮速、转向角、刷盘转速、水量阀门开度。这套架构机器人圈用了几十年,但跟 LLM agent 套上是最近这两年的事。Paul 那个 web agent 把”搜商品+筛价格”两步切开能涨准确率,在机器人这边对应的是:任务越具体,生成空间越小,出错越少。我们自己的经验是,直接让大模型端到端输出”下一秒的轮速指令”几乎必崩,但让它先输出”接下来 3 米应该绕开右前方的玻璃柜台、向左走”这样的中等粒度指令,再交给底层控制器,效果显著好。

K 次采样测不确定度,这个机制在机器人上比在网页 agent 上更值钱。机器人面对的不确定性比网页 agent 多得多,玻璃门激光雷达打不到、镜面反光地面里程计打滑、楼宇电梯里 4G 信号断断续续、自动门突然弹开。我们现场最头疼的不是模型分错类,而是模型自己不知道分错了,然后拿着错误判断硬执行下去。Paul 那个”同一个 plan 重复采样 K 次看分布”的思路,直接可以平移到导航决策上:同一个路口让感知模型连续推 5 次,5 次都说”可通过”,就走;5 次有 3 次说”不确定有没有玻璃”,就停下,要么让远程客服值守人员看一眼,要么换条路。这种”模型知道自己不知道”的信号,是把人放进回路最自然的入口。

多模态偏见复合,在机器人这边是另一种形态:多传感器一起出错时,故障定位变难。激光雷达说前方 1.2 米有障碍,深度相机说没有,IMU 说机身在轻微抖动,碰撞传感器没触发。哪个对?如果上层有个融合模型,把这几路信号一起喂进去出一个”前方畅通”的结论,然后机器人撞上去——你事后翻日志,会发现单看每一路传感器都说”我觉得不太对”,但融合模型对错误结论非常自信。Paul 在 vision+language 那个实验里看到的”两个证据一致就更确信”的失败模式,在机器人多传感器融合上一模一样。我们现在做法是,关键决策路径必须保留单模态可回溯通道,不允许融合模型把原始信号吃干净,这样故障复盘时能拆开看是哪一路在骗自己。

robust 和 accuracy 负相关,这条在机器人感知模型上是血泪教训。在实验室样板间标注得整整齐齐的数据集上,新模型比老模型 mAP 高 4 个点,看起来该上;部署到真实商场,反光地砖、节日装饰、午高峰人流密集、玻璃幕墙反射,新模型反而比老模型多出一倍的误识别。Paul 那个研究给了个干净的解释:为了刷高准确率做的种种 trick,本身就是过拟合到测试集分布的代价。我们现在评估新版本感知模型,除了准确率,还要看在加入合成噪声(运动模糊、镜头眩光、随机遮挡)后性能掉了多少;掉得少的版本,即使峰值低一点也优先上。

quantification 这件事是机器人云服务最该做但最少有人做的。机器人队伍铺到几千台、几万台之后,模型出错是必然的,问题不是”会不会错”,而是”错了之后能多快定位、能不能预测下一次会在哪里错”。Paul 提的那套”让人去模拟模型行为”的评估思路,落到我们这边可以变成一个具体动作:让现场运维工程师在新模型上线前,看一批典型 case,猜模型会怎么判;猜得越准,说明这个模型对运维团队来说越透明,出问题时越容易快速止血。透明度本身就是部署价值。

收束

Paul 在最后一句话之前停了几秒,他说做这个课的初衷,是希望学生离开教室之后,看到一个新模态、新数据、新场景,知道该怎么往下想——而不是只记得几个算法的名字。

听到这里我合上笔记。前 11 讲讲的是工具,这一讲讲的是用工具的人,以及工具和人之间那条永远闭不上的缝。这条缝是 feature,不是 bug;它会成为接下来三五年所有有意思的工程问题的发源地。模型会继续变大,但”让人能跟上模型”这件事,才是真正需要被设计出来的。

整个系列写到这里,12 篇逐讲解读告一段落。机器人这一行,刚好站在多模态、agent、人机协同这三件事的交叉口上,Paul 这门课对我来说不能听完就过,接下来每次设计新系统时都会翻回来对照,当成一本工作手册。

本系列

MIT《How to AI (Almost) Anything》共 12 讲,这是我的逐讲解读:

  1. 这门 MIT 课不教模型,教你怎么”想” AI
  2. 怎么做 AI 研究:读论文、找想法、快速验证
  3. 数据、结构与信息
  4. 实用 AI 工具
  5. 常见模型架构
  6. 多模态对齐
  7. 多模态融合
  8. 跨模态迁移
  9. 大型基础模型
  10. 大型多模态模型
  11. 强化学习与交互
  12. AI 的下一步不是更大的模型,是学会跟人合作 (本篇)
阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:Toy's Tech Notes » AI 的下一步不是更大的模型,是学会跟人合作
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐