大型多模态模型的真正捷径,是给冻住的语言模型接一根线

过去三年,做”语言+图像”的人几乎都在重复一个动作:拿一个已经训得很大的语言模型,死死冻住它,然后在它前面接一个很小的转接头,把图像、视频、传感器数据翻译成它认识的”词”。听起来像凑合,但这条捷径偏偏成了主流,也是这一讲最值得记住的那条隐线。

这是 MIT《How to AI (Almost) Anything》的第 10 讲(原视频),主题是大型多模态模型。Paul Liang 把这堂课拆成三段:多模态表征怎么学、怎么把冻住的语言模型(LLM,大语言模型)接到别的模态上、怎么让它反过来生成图像和视频。三段串起来,其实是在回答同一个问题:当你已经花了几千万美元训出一个文字脑袋,怎么用最少的代价让它长出眼睛和耳朵。

这一讲的总判断:语言是新瓶颈,不是新底座

听完整堂课我反复琢磨的一句话是:这一代多模态模型,把语言当成了万物的中转站。

你给它一段视频,它先把视频翻译成”词”;你想让它输出一张图,它先吐出一段语言嵌入(embedding,向量),再用 CLIP 这类模型去图像库里找最近邻或者交给扩散模型画。中间这条语言通道是个瓶颈,所有模态都得挤过去。

Paul 在课上被学生问到这一点时,原话挺直白:模型不是把图像嵌入和文字嵌入都留在记忆里,它把图像也投影成”语言空间里的词”,然后用语言来记事、用语言来检索。优点是省钱、好接、可解释;缺点是只要语言空间表达不出来的东西,模型就丢了。

这条判断不是细节,它决定了你做产品时的所有上限。你能用多模态做的事,最终都被”能不能用一句话描述清楚”这件事卡死。

第一段:多模态 Transformer 的真正变化只在一个矩阵

第一部分是表征学习,内容上没有惊喜,但 Paul 在黑板上把”多模态 Transformer 和单模态 Transformer 到底差在哪”讲得很干净。

单模态 Transformer 里,query 和 key 都从同一个序列里来:一段文字内部,词和词互相算注意力。换成多模态之后,query 从一个模态来,key 从另一个模态来。比如 query 是三个文字词向量、key 是四帧视频里的非语言特征(音量、眼神、表情),拼出一张 3×4 的跨注意力矩阵。

他用的例子很妙:一个人说”privilege”这个词的时候,语气特别大声,说完还翻了个白眼。模型学到的对齐就是:”privilege”这个词对”大音量”这个特征赋 0.7 的权重,对”翻白眼”赋 0.3 的权重。然后用这两个权重去加权那些非语言特征,得到一个新的、被多模态上下文修正过的”privilege”表征。最后用这个表征去判断这人是不是在讽刺。

这套机制听起来抽象,落到一句话:多模态 Transformer 没有发明新东西,只是允许 query 和 key 来自不同模态,并且要求它们投影到同一维度的空间里。剩下的归一化、softmax、加权全跟纯文本的 Transformer 一模一样。

这个”维度必须一致”的硬约束,后面会一直回响:为什么 CLIP 那么重要、为什么适配器(adapter)只需要一个线性层就够,根都在这儿。

第二段:适配器(adapter)是这一代模型的真正变量

第二段是这一讲最值钱的部分,也是工程上最该抄走的那一段。

适配器是什么?Paul 的描述很简洁:一个很小的变换,把图像特征(或者任何模态的特征)映射到语言模型的词嵌入空间里,然后当作”前缀词”塞进 LLM。LLM 自己不动,只训这个适配器。

小到什么程度?Paul 说人们做实验发现,一个线性层就够了。因为视觉编码器(比如预训练好的 ViT)已经把图像压成了语义丰富的向量,而 LLM 的词嵌入空间也已经在大规模预训练里被打磨得很顺,中间只需要一个矩阵把两边对齐就行。

训练数据也不必多。给一堆”图像-文字描述”对,让模型用前缀里的图像特征去自回归预测后面的文字,只有适配器在更新。Paul 反复强调:LLM 是冻住的,视觉编码器一般也冻住或者只微调。

他举了三个递进的例子,把这条路径的演化讲透了:

Frozen(2021,DeepMind):最早的概念证明。给模型看一张苹果的图,旁边写一句”This is a dax”;再给一张橙子的图,写”This is a blicket”;最后给一张新的苹果图,问”这是什么”。模型回答”dax”。”dax”和”blicket”都是 Paul 故意编出来的假词,模型从没在预训练里见过,但靠两个例子就把名字绑到了视觉对象上。这件事叫”符号绑定”(symbol binding),心理学里测小孩学新词用的就是这套范式。

Flamingo(2022,DeepMind):把 Frozen 的思路放大,能做长对话,能描述”月球上两只泰迪熊”这种荒诞场景。社交媒体上那个经典的”苹果上贴 iPod 贴纸”的图,早期视觉模型会把它认成 iPod,Flamingo 能识别出”这是一颗贴了 iPod 贴纸的苹果”。Paul 紧接着补了一句很坦诚的话:这些”病毒级失败案例”被修复,大概率是大公司在 Twitter 上看到了之后专门把这类样本灌进训练集,所以别把单个 bug 修好当成模型架构上的进步。

LLaMA-Adapter(开源):把适配器思路彻底模块化。一个适配器接图像,另一个适配器接 3D 点云,再一个接不同语种。把所有适配器并起来,共用一个冻住的 LLaMA。你想让它支持一种新模态,训一个新的适配器就行。这就是为什么”插即用”在这一代多模态模型里成了主流:你换个传感器,不用重训整个大模型。

这条路线的工程含义非常具体:你想让自己的领域接进大模型,不用等 OpenAI,只需要准备好这个领域的数据对,训一个十几兆的小线性层。

训练数据的暗线:从堆量到挑质,从单图到交错

第二段里还藏着一条不显眼但很重要的暗线:训练数据的形态在变。

预训练这边,Paul 把规模线画出来了:YFCC(早期图文对) → LAION 400M(4 亿对) → LAION 5B(50 亿对) → DataComp 12B(120 亿对)。每一档涨一个数量级,堆量这件事还在继续。

但同时,人们开始反过来挑质。OBELISC、DCLM 这些新数据集规模小一些,但筛得更狠,把垃圾标注、敏感图、低质量配对都过滤掉。Paul 没有展开讲,但这个反转背后的逻辑很清楚:堆到一定规模之后,边际收益在掉,而清洗一次能换来好几倍的有效信息。

更关键的变化是从”单图单 caption”变成”交错图文”(interleaved image and text)。早期数据集每条记录就是一张图配一句话,图与图之间互不相关。新数据集里一条样本是一段连续的”图-文-图-文-图-文”,更像你在微信里跟朋友聊天:发张图、配段话、再发张图、再补几句。

为什么这个变化重要?因为你在真实场景里跟模型交互,本来就是来回多轮的:”给我画个海狸,再给我换成铅笔素描,再加一棵树,换个角度再来一张。”模型必须能在多轮里保持视觉和语言的连贯性。单图单 caption 的训练数据,根本练不出这个能力。

第三段:从只生成文字,到也能生成图像

第三段讲的是怎么让多模态 LLM 反过来生成图像。Paul 没有展开扩散模型本身(那是另一节课),但他把”怎么把生成模型接进 LLM 流水线”讲得很清楚。

骨架还是那套:LLM 在中间用语言空间存信息,要生成图像时,它输出一个语言嵌入,然后这个嵌入去跟 CLIP 训出来的图像嵌入算相似度。

具体有两条岔路:

一条是检索:把这个嵌入拿去图像库里找最近邻,直接返回一张已有的图。优点是图一定真实、看得过去;缺点是图库里没有的东西生成不出来,而且检索可能慢。

另一条是生成:把这个嵌入喂给一个文生图模型(比如 Stable Diffusion),让它逐像素画一张新图。优点是任何描述都能画;缺点是画出来的可能不是你想要的那个具体东西。

Paul 举的例子是”刚烤好的饼干怎么在农贸市场摆出来好看”。检索模型给出来的是真实饼干图,但堆得很挤;生成模型画出来的是想象中的饼干,摆得很疏朗。最聪明的系统会有一个决策模块在两种方式之间切:这张要现实感就检索,要构图美就生成。

听完这段我才意识到,所谓”多模态生成”在工程上不一定意味着每张图都重画一遍。很多时候,先去图库里找一找,比让扩散模型从头画一张更便宜也更靠谱。

原生多模态值不值得追:LLaMA 4 没说清楚的事

最后一段 Paul 聊了原生多模态(native multimodal)模型,LLaMA 4 就是典型代表:不从预训练好的 LLM 出发,直接从随机初始化开始,用语言、图像、视频、音频混在一起从头训。

支持原生路线的人有两个理由。一个是工程上的:文本数据快被用尽,图像和视频里还有大量信息没被挖出来。一个是哲学上的:人类婴儿是先有视觉听觉触觉、再学语言的,从头联合训练更接近”演化教我们学习的方式”。

但 Paul 的态度相当克制。他说 LLaMA 4 发布之后”看起来挺让人失望”,效果没有想象中那么好;GPT-4 和 Gemini 怎么训的,没人真的知道,大概率是”预训练 + 适配 + 一点原生”的混合。原生路线的真实门槛是,只有手里有几千张 H100、敢花几个月烧从零开始训的公司,才能玩这个游戏。对其他所有人,适配器路线还是最划算的捷径。

他顺手提了原生模型的两个工程细节,挺值得记一笔:

一个是 LLaMA 4 同步发布的多模态缩放定律(scaling law),早期融合(early fusion,直接吃图像 patch 进 Transformer)和晚期融合(late fusion,过预训练图像编码器再进 LLM)在小规模时早期融合略占优,大规模时两者基本打平。结论是:真上规模之后,可能根本不需要单独训一个图像编码器了。

另一个是混合专家(MoE)。LLaMA 4 是第一个公开提到在多模态模型里用 MoE 的。Paul 团队自己也做了类似实验,发现一个反直觉的结论:让专家”按模态分工”反而比”模态无关”的专家更差。意思是,你不要硬把某些专家圈定成”只看图像”、某些”只看文字”,而是让它们自由分工,模型自己会找出”这个专家擅长融合冗余信息、那个擅长抓多模态独有的协同”。

时间序列的尴尬:LLM 在这儿没那么神

讲到最后 Paul 顺带聊了把 LLM 接到时间序列(传感器、生理信号、设备日志)上的工作,态度比聊语言+图像时悲观得多。

他直接说:目前大多数 Time-LLM 类工作,性能可疑。有研究把那些复杂的注意力层、甚至冻住的 LLM 整个拆掉,换成一个简单的注意力层,性能几乎没变化(差距小到 0.003)。这意味着前面一堆”接 LLM”的操作,可能根本不是性能的来源。

但他也举了两个有趣的反例:

一种是把时间序列画成折线图,当作图像喂给视觉 LLM,Paul 说这个方法”出人意料地工作得挺好”。

另一种更野:做机器人的人直接把关节角度、本体感知数据当作纯文本写出来,像”关节 1 角度 45 度,关节 2 角度 30 度,本体感知是 …”这样丢给 LLM,它居然能干点事。

这两个反例都说明一件事:LLM 对”数据怎么表示”非常敏感。你换个表示方式,性能可能从不能用变成勉强能用。真要把 LLM 接到非主流模态上,先别急着设计花哨的编码器,把同样的数据换三种表示形式各跑一遍,可能比改架构有用得多。

我会怎么用:把适配器思路放到机器人上看

我做的是清洁/服务机器人的云服务,这一讲对我格外有用,因为机器人是天然的多模态系统:激光雷达、深度相机、IMU、里程计、轮速、电机电流、碰撞传感器、麦克风,全在同一时刻往外吐数据。

听完这堂课我会优先做的事有三件:

第一件,认真考虑”适配器进 LLM”这条路径。我们之前接 LLM,基本只用文字,把机器人状态、告警、配置都序列化成 JSON 喂进去。但 Paul 讲的”把激光雷达点云接成适配器塞进冻住的 LLM”这件事,LLaMA-Adapter 上已经有现成工程了。一台清洁机器人在玻璃门前反复打转,纯文字描述很难说清”为什么打转”;但如果你能把那一刻的点云 + 视觉特征接成适配器塞给 LLM,问它”为什么这一帧机器人会犹豫”,答案可能比堆告警有用得多。这条路径的工程量小到可以在一个迭代周期里跑通。

第二件,把”语言是瓶颈”这件事当成产品上限来管理。我们做现场运维助手,用户问”为什么这台机器在 18 楼电梯口卡了 20 分钟”,模型答得好不好,取决于这 20 分钟里那些非语言信号能不能被翻译成语言。激光雷达里那条”电梯门没开”的轨迹、IMU 里那段”机器人前后挪动”的波形、电机电流里那段”想动动不了”的脉冲,这些都得有人把它们写成”模型能理解的句子”。适配器不会自动学出这些翻译,真正的活在数据团队这边。

第三件,警惕原生多模态的诱惑。我看到 LLaMA 4 那套”原生多模态”的论调时确实心动过一下:既然机器人天然是多模态的,那从零联合训练一个机器人基础模型,听起来很性感。但 Paul 的话提醒了我:那是几千张 H100 的游戏,不是我们的游戏。我们应该做的是把适配器这条便宜路径做扎实:挑两三种最关键的传感器模态,各训一个小适配器,接到我们已经在用的 LLM 上,跑出真实业务上的提升,再决定是不是要往更深的方向走。

还有一个细节我会带回团队复盘:Paul 那个”机器人本体感知直接写成文字”的反例。我们现在很多日志诊断管道,其实都在做类似的事,把传感器数据序列化成结构化文本喂给 LLM。这个方法看起来糙,但它的边界在哪、什么场景下会崩,值得我们专门做一组对比实验,把”图像化””文本化””适配器化”三种表示在同一个故障样本上各跑一遍,看哪种诊断准确率更高。这种对比比读十篇论文管用。

收束

这一讲最值得带走的是一种工程克制:别一上来就梦想”从零训一个属于自己领域的多模态基础模型”,先想清楚你能不能用一根线、把自己的数据接到别人已经训好的脑袋上。Frozen、Flamingo、LLaMA-Adapter 这一串工作,本质上都是同一个动作的不同放大版本。这条路对绝大多数团队,包括我们自己,大概率都是性价比最高的那一条。

下一讲是强化学习与交互,这是从”看懂世界”迈向”在世界里做事”的关键一步。我对那一讲的兴趣会更大,因为机器人正是在那条边界上每天踩坑的地方。

本系列

MIT《How to AI (Almost) Anything》共 12 讲,这是我的逐讲解读:

这门 MIT 课不教模型,教你怎么”想” AI
怎么做 AI 研究:读论文、找想法、快速验证
数据、结构与信息
实用 AI 工具
常见模型架构
多模态对齐
多模态融合
跨模态迁移
大型基础模型
大型多模态模型 (本篇)
强化学习与交互
人机交互