MIT《How to AI (Almost) Anything》:多模态 AI 逐讲精读

MIT Media Lab 2025 春季由 Paul Liang 主讲的多感官智能课程逐讲深度解读,共 12 讲。区别于传统机器学习入门,这门课不教某个算法,教的是面对一种新模态(气味、触觉、生理信号、机器人传感器……)时如何从数据、架构、训练、评估、部署一路想下去的工程原则。专题从基础模块走到多模态对齐、融合、跨模态迁移、大型基础模型、强化学习与人机交互,每一讲都从高仙机器人云服务的现场视角接住理论,适合在做非标准模态 AI 落地的工程师与技术负责人参考。

这门 MIT 课不教模型,教你怎么"想" AI

MIT 媒体实验室有个延续多年的传统,叫 “how to … almost anything”。最早是 how to make almost anything(怎么造几乎任何东西),后来有了 how to...

赞(0)

Toy2026-06-14AI 阅读(68)

研究是设计一个能失败的实验,不是想一个聪明点子

我以前一直觉得”做研究”是个挺玄的事:你得有灵感,得有品位,得在某天洗澡的时候突然冒出一个别人没想到的想法。后来在工程里摸爬几年,慢慢意识到大部分研究并不长这样。它更像一台机器,你按一个流程一圈一圈地转,转得快、转得...

赞(0)

Toy2026-06-15AI 阅读(49)

阿里云全线云产品特惠 · 一站采购

ECS / OSS / CDN / 云数据库一站采购,常用云资源集中选配;新用户与续费均有专场优惠,适合个人开发者与小团队长期使用。

2026-07-30

选模型之前,你得先给数据画一张脸

机器学习课的常见开场是讲算法:第一周线性回归,第二周决策树,第三周神经网络。Paul Liang 这一讲反着来。他先讲数据,而且讲了整整一节课,模型一个字没提。他给的理由很简单:你手里那摊数据长什么样,基本上已经决定了模型该长什么样,反过来...

赞(0)

Toy2026-06-15AI 阅读(42)

在动模型之前,你得先和数据"贴脸"

第 4 讲是这门课第一次把人按到键盘前面。前三讲讲原则、讲研究、讲数据本身的结构,从这一讲开始,Paul Liang 把麦克风让给两位 TA:David 和 Chanaka,带大家在 Colab 里把一个分类模型从头跑通。听上去像一节教 ...

赞(0)

Toy2026-06-15AI 阅读(68)

模型架构的差别,在于你愿意把多少"结构"提前告诉模型

机器学习入门课的常见教法是:一周讲一个模型,线性回归、SVM、CNN、RNN、Transformer、GNN,一周一个,讲到学期末。学生记住了一堆名字,但下次拿到一个新数据集,还是不知道该选哪个,更不用说自己设计一个。 Paul Liang...

赞(0)

Toy2026-06-15AI 阅读(78)

多模态对齐的难处,从来不是把数据拼起来

1976 年,一个叫 David McGurk 的心理学家做过一个实验。他给受试者放两段视频,画面里两个人在说话,音轨完全一样,但其中一个人的嘴型是发”ba”,另一个是发”fa”。受试者听到的...

赞(0)

Toy2026-06-15AI 阅读(54)

多模态融合不是把数据拼起来,是让模态之间"乘起来"

机器人圈有句老话:传感器加一个,问题加十个。同事最初听到这话总觉得是抱怨,做久了才明白,它说的是一个具体的工程现象:你给机器人加一颗 IMU、一颗超声、一颗深度相机,它的感知能力并没有按”加法”涨,而是按”...

赞(0)

Toy2026-06-15AI 阅读(68)

数据稀缺的模态,要靠别的模态来养

做机器人的人都熟悉一种处境:你想训一个新传感器上的模型,真实数据只有几千条,但同一个场景下,摄像头数据有几百万条、激光雷达数据有几千万条。你眼睁睁看着隔壁模态躺着金山,自己手里却只有沙子。这不是你一个人的问题。医疗数据、生理传感器、嗅觉信...

赞(0)

Toy2026-06-15AI 阅读(101)

强化学习这十年,走的是一条不断"删东西"的路

监督学习像一次考试,你答一道题,老师立刻给分。强化学习不是。强化学习是你下一整盘棋,走了几十步,最后才知道这盘赢没赢,而且没人告诉你哪一步是关键的。这个差别看起来只是”反馈给得晚一点”,但它把整套训练范式都拧到了另一...

赞(0)

Toy2026-06-15AI 阅读(82)

AI 的下一步不是更大的模型,是学会跟人合作

一门课的最后一讲,最能看出讲者真正在想什么。前面 11 讲是在搭骨架,数据、架构、对齐、融合、跨模态迁移、基础模型、强化学习,一块一块拼上去。到最后一讲,Paul Liang 不再讲新算法,而是退一步问:这些东西攒齐了,下一步应该长成什么样...

赞(0)

Toy2026-06-15AI 阅读(101)

大模型的胜负手已经不在结构,而在效率

Paul 这一讲一开场就先打了个预防针:今天讲的是高度浓缩版的内容,MIT 隔壁的 ALP 那门课才是正经讲大模型,这里只是个高空俯瞰。听到一半我反而觉得,这种”俯瞰”才是真正值钱的。他把一个被无数公众号、技术博客、...

赞(0)

Toy2026-06-15AI 阅读(97)

大型多模态模型的真正捷径,是给冻住的语言模型接一根线

过去三年,做”语言+图像”的人几乎都在重复一个动作:拿一个已经训得很大的语言模型,死死冻住它,然后在它前面接一个很小的转接头,把图像、视频、传感器数据翻译成它认识的”词”。听起来像凑合,但这条...

赞(0)

Toy2026-06-15AI 阅读(87)

事件分析

从开发工具演进与生态链的角度观察，此类扩展程序的出现填补了 Apple 官方 Web 端在跨区域浏览体验上的空白。虽然技术原理主要基于 URL 参数的动态修改与页面状态保持，但其精准切中了应用出海产业链中对于多区域数据实时比对的刚性需求。随着移动应用市场竞争全球化，开发者对精细化运营的要求日益提高，能够快速获取不同区域的一手市场数据（如价格体系差异、本地化文案风格）变得至关重要。Apple Region Switcher 的流行反映了垂直领域“微创新”工具的价值，即通过低成本的自动化脚本或插件，解决大型平台未覆盖的长尾痛点。这表明在软件开发生命周期中，基于浏览器扩展的辅助工具依然是提升开发与运营效率的重要手段，尤其在 ASO 和全球化推广等特定场景下，此类轻量级工具往往能发挥出超越其代码复杂度的商业价值。

💡 核心观点：轻量化开发者工具通过填补官方生态的功能空白，正成为应用出海精细化运营中不可或缺的效率倍增器。

事件分析

此次服务中断可能源于底层基础设施负载过高或计算资源调度失衡。对于高度依赖云端算力的大模型服务商而言，系统稳定性与模型推理能力同等重要。由于 Claude 近期在开发者工具生态（如 MCP 协议相关应用）中的渗透率不断提升，此类稳定性波动将直接考验其 SLA（服务等级协议）保障能力。若故障持续时间较长，可能会促使开发者重新评估“模型单一依赖”的风险，加速构建多云或多模型切换的容灾机制，以确保业务连续性。

💡 核心观点：云端大模型的高可用性已成为企业落地的核心考量，单点故障风险将加速多云架构与模型冗余方案成为行业标配。

事件分析

该讨论揭示了当前AI编程工具在处理系统级逻辑和状态流转时的核心痛点。虽然现有的大模型在单函数生成上表现出色，但在面对长上下文、多分支嵌套的面向过程业务逻辑时，仍容易出现逻辑“幻觉”或状态丢失。开发者试图通过引入可视化流程图（如Draw.io）或结构化提示词来构建“中间表示层”，这实际上是在建立一种标准化的交互协议，帮助AI理解业务拓扑结构。从技术演进角度看，这预示着未来的开发者工具（如Cursor、Claude Code）将更加重视“可视化编程”与“逻辑调试”功能的整合。能够支持将业务流程图直接转化为代码架构，或者通过交互式决策树辅助AI进行推理，将成为提升开发效率的关键竞争点。

💡 核心观点：AI编程正从单纯的代码生成转向深度的逻辑架构协作，可视化与结构化交互将成为驯服大模型处理复杂业务流程的关键。

事件分析

长上下文能力的竞争已从单纯的“长度数字”转向“有效吞吐”和“复杂推理”。此次榜单汇总反映了评估标准正在从简单的检索（大海捞针）向需要深度信息综合的复杂任务（如 AA-LCR 的推理基准、CropFin 的专业领域分析）演变。行业普遍认识到，扩大上下文窗口虽然技术上可行，但要维持中间和末尾的推理质量仍极具挑战，这直接考验着 Transformer 架构中的注意力机制优化。像 vals.ai 这样专注于垂直领域的私有基准出现，标志着模型评估正从通用性能向实际产业落地转移。对于开发者而言，单纯依赖公开榜单可能产生误导，结合特定 RAG（检索增强生成）流程或知识库的私有领域测试变得愈发重要。未来，长上下文测试将更侧重于衡量模型在多文档交叉引用、长序列逻辑推理以及降低幻觉方面的综合表现。

💡 核心观点：长文本评测正从通用“大海捞针”向垂直领域复杂推理演进，单一基准无法代表模型真实落地能力。

事件分析

此次讨论揭示了当前 AI 编程智能体在工程落地层面的关键瓶颈：状态管理的低效性。早期的 AI 工具多采用简单的请求-响应模型，但在处理复杂的长时任务（如编译大型项目）时，缺乏有效的异步挂起和恢复机制。Claude Code 引入的独立 Monitor 实际上是一种更高级的架构设计，它将“执行”与“监控”解耦，大幅降低了无效的 Token 吞吐量。这种从“轮询”向“事件驱动”的转变，将是未来 AI Agent 进化的核心方向。它不仅能显著降低大模型的使用成本，更是提升 AI 编程工具在真实生产环境中可用性的必要条件。

💡 核心观点：引入独立监控机制替代轮询，是 AI 编程工具提升执行效率、降低 Token 消耗的必然架构升级。

事件分析

该教程详细展示了AI应用开发从环境配置到工程化落地的完整技术栈，重点突出了“Skills（技能）”在连接大模型与本地开发环境中的核心作用。随着Claude Code、CodeBuddy等工具的兴起，AI开发正从单一的Prompt编写演变为构建具备上下文感知和工具调用能力的智能体系统。教程中对Trae IDE和OpenClaw的实操教学，预示着IDE与AI模型的深度融合以及技能市场的标准化将是未来趋势，掌握这套从基础调用到企业级部署的全栈流程，已成为AI工程师转型的关键路径。

💡 核心观点：AI开发已迈入工程化深水区，掌握“模型+工具链+Agent技能”的全栈能力正取代简单API调用成为开发者新标准。

MIT《How to AI (Almost) Anything》:多模态 AI 逐讲精读

这门 MIT 课不教模型,教你怎么"想" AI

研究是设计一个能失败的实验,不是想一个聪明点子

阿里云全线云产品特惠 · 一站采购

选模型之前,你得先给数据画一张脸

在动模型之前,你得先和数据"贴脸"

模型架构的差别,在于你愿意把多少"结构"提前告诉模型

多模态对齐的难处,从来不是把数据拼起来

多模态融合不是把数据拼起来,是让模态之间"乘起来"

数据稀缺的模态,要靠别的模态来养

强化学习这十年,走的是一条不断"删东西"的路

AI 的下一步不是更大的模型,是学会跟人合作

大模型的胜负手已经不在结构,而在效率

大型多模态模型的真正捷径,是给冻住的语言模型接一根线

置顶推荐

前沿哨所

一键切换全球 App Store：Chrome 插件 Apple Region Switcher 发布

事件分析

Anthropic Claude 官方状态页显示多模型报错，服务稳定性引关注

事件分析

AI编程新范式：开发者如何高效与Agent梳理复杂流程与逻辑

事件分析

大模型长上下文能力基准测试榜单汇总

事件分析

开发者热议：Claude Code 后台监控机制在处理长时任务上优于轮询模式

事件分析

全面解析AI大模型开发技术：从环境搭建到Agent技能实战

事件分析

最新文章

热门专题

热门标签

网站统计