这门 MIT 课不教模型,教你怎么”想” AI

MIT 媒体实验室有个延续多年的传统,叫 “how to … almost anything”。最早是 how to make almost anything(怎么造几乎任何东西),后来有了 how to grow almost anything(怎么合成生物),今年春天,第三门课开张了:how to AI almost anything。

把 AI 和”制造””生长”放在同一个句式里,本身就是一个态度。它没把 AI 当成一个技术专题来教,而是当成一种通用的做事能力——就像你得会用工具、会动手,你也得会用 AI 去处理你手头那摊东西。

这是 MIT《How to AI (Almost) Anything》的第 1 讲(原视频),主讲人 Paul Liang 是媒体实验室的新教授,带一个叫”多感官智能”(multisensory intelligence)的研究组。第一节课照例是课程介绍,但介绍里藏着一个我觉得比课程本身更值钱的判断。

这门课教的是”原则”,不是”方法”

Paul 在课程中段说了一段话,我认为是整门课的题眼。

传统的机器学习入门课长什么样?15 周,每周讲一个算法,线性回归、决策树、SVM、卷积网络,一个一个过。学完你会一堆方法,但碰到一个全新的问题,你还是不知道从哪下手。

这门课反过来。它不追求把算法讲全,而是教你拿到一个陌生问题时怎么往下想:

我需要什么样的数据?这数据从哪儿收集?
我需要什么样的模型结构?这结构该怎么设计?
怎么快速做实验,验证模型在我的数据上到底行不行?
真要把这套系统部署到现实里,有哪些坑得提前躲?

Paul 把这套东西叫”原则”(principles),区别于”方法”(methods)。方法是死的,某个具体算法;原则是活的,是你面对没人做过的数据时,那套能复用的思考路径。

为什么强调这个区别?因为这门课的目标读者,不是来学”再调一遍 ResNet”的。它的目标是那些手里攥着非主流数据、想用 AI 但不知从何下手的人:你研究的是气味、是触觉、是生理信号、是人的社交行为,这些模态在主流 AI 研究里几乎没人碰,网上没有现成的教程让你照抄。这时候你需要的不是又一个算法,是一套”从零把问题想清楚”的能力。

我带团队这几年,最深的体会跟这个判断完全合得上。招进来一个工程师,会调包、会跑通别人的 repo,这是基本盘,不稀缺。真正稀缺的是:给他一个全新的业务问题,他能不能自己想清楚该收什么数据、该用什么结构、该怎么验证。前者是”方法”,后者是”原则”。这门课想教的,恰恰是后者——而后者,正是最难教、也最值钱的那部分。

“AI for anything”到底指什么:世界是多感官的

课程标题里的 “anything”,落到实处就是一个词:多模态(multimodal)。模态指的是信息的一种形态:文字是一种模态,图像是一种,声音、触觉、气味,都是。

Paul 的核心世界观是:我们周围的世界本来就是多感官的,而 AI 正在一个一个地把这些感官吃下来。他举的例子比抽象定义有说服力得多,我挑几个留下来。

触觉机器人。给机械臂装上力觉和触觉传感器,它就能感觉到自己抓的是硬物还是软物、放进去的位置对不对。更妙的是冗余:你可以用力去推它、模拟地震,它靠视觉照样完成任务;你拿个文件夹挡住它的摄像头、模拟下雨起雾,它又能切回靠力觉来干活。传感器越多,系统越抗造。

嗅觉芯片。Paul 组里做了一块能感知食物饮料挥发气体的芯片。收够数据训练之后,它能”闻”出特定气味,比如专门训练它识别花生,你把它凑近糖果、蛋糕、花生酱,只要有花生它就报警。对花生过敏的人,这就是能救命的东西。气味,这个最不像”数据”的东西,也成了一种模态。

健康监测。我们一年去一两次医院,但身体状态是每天都在变的。手机、可穿戴设备上的传感器,能持续感知情绪、压力、睡眠;ICU 里的摄像头能高分辨率地判断病人是坐起来了还是摔倒了,第一时间通知医生护士。健康这件事,正在从”去医院测”变成”无时无刻地感知”。

生成式翻译。课程也会讲生成式 AI(generative AI),它能把一个模态语义地翻译成另一个模态。输入一段文字,生成对应的视频;给一段没有声音的视频,自动配上合适的音乐或音效。过去模态和模态之间是隔开的,现在它们之间有了”翻译器”。

交互式 agent。这是从”感知”迈向”行动”的一步。过去的 AI 大多是做单步预测:给一张 X 光片,判断有没有病变。新一代的 agent(智能体)不止预测,还能连续行动:你跟它说”去亚马逊帮我买一副某颜色、评分 4.5 星以上的耳机”,它能自己搜索、按评分排序、按你过去的偏好选颜色、加购物车、结账。一句自然语言,换来一串动作。

这几个例子串起来,就是 Paul 说的 “AI for anything”:从理解物理环境,到生成各种数字内容,到读懂健康信号,再到替你完成多步任务。AI 不再只活在文字和图片里。

整门课的地图:两大主题,四个模块

这一讲也铺开了整个系列的骨架,我把它整理成一张地图,后面 11 篇会顺着它走。

两大主题,其实是一体两面:

新模态 AI:怎么把 AI 用到那些主流没碰过的模态上(气味、触觉、生理信号)。
多模态 AI:怎么把多个模态连起来,比如把语言和手势连起来理解一个人的社交意图,或者把感知和动作连成一个”感知→行动→再感知”的闭环。

四个模块,是这门课的执行路径:

AI 基础:数据怎么想、模型架构怎么设计、训练和泛化怎么做。
多模态基础:模态之间为什么能连、怎么对齐(alignment)、怎么融合(fusion)、数据少的模态怎么靠别的模态来补(跨模态迁移,cross-modal transfer)。
大模型与现代 AI:预训练、扩展、微调(fine-tuning),以及大型多模态模型、生成式 AI。Paul 特别说,重点会放在微调上,因为没人指望你从头预训练一个大模型,但把它调到你自己的领域,是真实需求。
交互式 AI:多步推理、具身(embodied)与可触碰的 AI、人机交互,以及随之而来的安全问题。

值得留意的是模块的排序:数据排在最前,模型排在中间,交互和安全压在最后。这个排序本身就是一种价值观:先问数据、先问落地,把”哪个模型最酷”放到最后再说。

最妙的设计:把”读论文”拆成七种角色

课程有 40% 的分数花在读论文和讨论上。如果只是”读两篇必读论文 + 几篇选读”,那没什么好说的。真正有意思的是 Paul 给讨论设计的角色扮演:读同一篇论文,你被分到不同身份,得用那个身份的视角去拆它:

同行评审(peer reviewer):像审稿人一样,挑出这篇论文的优点、缺点、实验或数学错误,以及怎么改进。
考古学家(archaeologist):假装你在故纸堆里翻到这篇旧论文,把它放回历史里,后来哪些工作是受它启发的?哪些工作反过来推翻了它?
学术研究者:你是这个领域的人,读完这篇,你能在它之上生出什么新想法、新方向?
产业实践者:假设你是某大公司的研究主管,你怎么说服老板,这篇论文能帮公司赚钱?
黑客(hacker):你得快速搭东西,怎么把这篇论文飞快地做成一个粗糙的 demo?动手实现的过程里你学到了什么?
私家侦探(private investigator):去追作者当初为什么做这个题目,他们的背景是什么,如果重来一次会怎么改。
社会影响评估者:这篇论文给世界带来的是正面还是负面影响?

这套设计我越想越喜欢。同一篇论文,七个视角下是七篇完全不同的论文。审稿人看到的是漏洞,考古学家看到的是脉络,黑客看到的是能不能跑起来,产业实践者看到的是钱。我们平时读论文,默认只有一种视角——”作者说了啥”,顶多加一句”我信不信”。但论文的价值从来不止于此:它在历史里的位置、它能不能落地、它背后的人为什么这么想,这些都得换个身份才看得见。

这其实不只是读论文的技巧。它是一种对抗单一视角的训练。任何一个判断,逼自己换七个身份重看一遍,大概率能看出第一眼漏掉的东西。

剩下 60% 的分,是一个真研究项目

课程另外 60% 的分,压在一个研究项目上。Paul 的要求很硬:最终产出要像一篇高质量的 AI 研究论文,而且必须去探索新想法,不能只是把别人已经做过的东西复现一遍。

为了让这件事能落地,他把项目切成了一串检查点:第二周交一个一两句话的预提案,第三周做提案展示,第六周要有初步实现,春假后交期中报告,期末交最终报告。每个节点之间都有反馈。这套节奏本身就是个值得抄的东西:它把”做一个研究”这种容易拖到最后一周崩盘的大任务,拆成了可验证的小段,每一段都有人帮你纠偏。

更有价值的是 Paul 顺手开列的一批开放研究方向。对不打算选课的人来说,这是一张”AI 还有哪些硬骨头没啃下”的地图:

深度学习并非到处都赢。Paul 直接点出,在时间序列、生理传感器、表格数据这几类问题上,深度学习至今打不过梯度提升树(gradient boosting)这类传统方法。这是个容易被忽略的事实:不是所有数据都该上神经网络,数据的结构决定了什么模型合适。怎么调和这个矛盾,本身就是一个开放问题。
从”预测”到”控制”。今天大多数 AI 做的是预测:感知到什么,判断个结果。但下一步是行动:不只是读出一个人佩戴传感器的状态,还能反过来采取干预,去调节他的健康。这要求系统既能感知又能行动,形成闭环。
社交智能的时间尺度。怎么让 AI 理解人的社交关系?难点在于,有些东西没法从十秒钟的视频里推断出来,得靠几个月、几年的持续交互数据。这是当前模型几乎没碰的尺度。
超越模仿人类的任务。今天的 AI 基本是在模仿:让人标注一个能力,再训练模型去逼近人的水平。Paul 提了一个更野的方向:能不能设计出连人类自己都完成不了的任务,让 AI 和人形成真正的协作,而不只是替代。

这几个方向放在一起,基本勾勒出了多模态 AI 的边界在哪。值得留意的是,它们大多不在”把模型再做大一点”这条线上,而在”怎么处理那些主流没碰过的数据和任务”这条线上,又一次呼应了这门课的题眼。

把这门课放到机器人上看

我做的是机器人云服务,所以这门课对我有一层格外具体的意义:机器人本来就是一台天然的多模态机器。

一台清洁机器人身上,激光雷达、深度相机、IMU、里程计、碰撞传感器、电机电流,全在同时往外吐数据。Paul 讲的那些抽象概念,落到这儿全是硬件:多模态对齐(让不同传感器在同一个坐标和时间下说得上话)、多模态融合(激光雷达看不清玻璃门时靠视觉补)、跨模态迁移(某个传感器数据稀缺时借别的模态来学),在我们这儿全是每天都在踩的工程现实,不挂在墙上。他那个”用文件夹挡住摄像头、机器人切回力觉”的例子,跟我们处理传感器失效降级的逻辑,几乎是一回事。

所以我会把这个系列当成一次”把现场经验对照理论重新过一遍”的机会。我们在工程里摸索出来的那些 trick,在这门课里大多有一个更干净的名字和框架。知道它叫什么、属于哪一类问题,下次遇到新情况时,你才知道该往哪个方向找答案。这又绕回了 Paul 那个判断:重要的是原则,不是方法。

第一讲就讲到这里。它本质上是一张地图,告诉你这门课要带你去哪儿。接下来的第 2 讲讲怎么做 AI 研究——怎么读论文、怎么找到好想法、怎么快速验证——那是真正开始上手的地方。

本系列

MIT《How to AI (Almost) Anything》共 12 讲,这是我的逐讲解读:

这门 MIT 课不教模型,教你怎么”想” AI (本篇)
怎么做 AI 研究:读论文、找想法、快速验证
数据、结构与信息
实用 AI 工具
常见模型架构
多模态对齐
多模态融合
跨模态迁移
大型基础模型
大型多模态模型
强化学习与交互
人机交互

这门 MIT 课不教模型,教你怎么"想" AI