一年前,模型支持 100 万 token 上下文还是发布会上的高光环节。现在它更像手机快充,人人都有,没有反而奇怪。Claude、OpenAI、Gemini 在海外,DeepSeek、MiniMax、Kimi、智谱在国内,新发布的模型几乎默认标配。
飞天闪客的这期视频用六分钟讲清了一件容易被跳过的事:1M 上下文到底难在哪,以及当所有人都做到之后,竞争其实换了一条赛道。下面是我看完后的梳理和一点延伸判断。原视频在这里:https://www.youtube.com/watch?v=PAKJPIpjUeo
1M 上下文是什么,为什么以前做不到
先说清楚概念。某个模型支持 1M 上下文,意思是你可以一次性喂给它 100 万个 token。token 可以粗略理解成模型处理文字的最小单位,一个汉字大约一到两个 token。
为什么这件事重要?上下文窗口小的模型,多轮对话之后就撑不住了,要么清空历史,要么压缩历史。但压缩本身也要占窗口,而且对信息有损。如果你一上来就要塞进去一大堆资料,窗口不够连压缩都没机会做。窗口大,模型才能在长对话、大文档、长任务里保持住完整信息。
既然痛点这么明显,为什么厂商不一开始就把窗口拉满,而是一点一点往上挪?难点在大模型架构里的注意力层。
每生成一个新 token,模型都要拿它和前面所有 token 算一遍相关性。token 越多,计算量涨得越快,复杂度是 O(N²)——长度翻倍,计算量变四倍。同时,每个 token 算出来的 K、V 向量都要以 KV Cache 的形式存在显存里,token 越多,显存占用越大。算不动,也存不下,这是 1M 上下文一直上不去的两座山。
三个必须同时解决的问题
显存这一座,有现成的压缩手段。MQA、GQA、MLA 这一系列方法,本质是让多个注意力头共享或压缩 K、V,把 KV Cache 占用降下来。
算力这一座更棘手。早期有个办法叫滑动窗口注意力(Sliding Window Attention,SWA),思路简单粗暴:每次只算固定窗口内的 token,窗口外的直接不看。问题是它用距离远近来取舍,太一刀切,窗口外万一藏着关键信息就丢了。
于是有了更精细的稀疏注意力(Sparse Attention):不是按距离切,而是从全部历史 token 里挑出少量真正相关的来算。怎么挑,各家方案不同。DeepSeek 叫 DSA(DeepSeek Sparse Attention),MiniMax 叫 MSA(MiniMax Sparse Attention),名字不一样,思路是一致的。
但光把计算量和显存压下去还不够。这里有第三个、也是最关键的问题:有效性。窗口标了 1M,不代表里面的信息真的能用。把一整本《三体》塞进去,结果一问连叶文洁是谁都答不上来,那这个 1M 就是虚标。
怎么验证「真的能用」
视频里把有效性的测试分成两个方向,这部分我觉得是最值得记住的。
第一个方向是长文定位,也就是从海量信息里精确找到某一段话。经典基准 MRCR 把这件事做得很变态:要找的那段话前面会加一串毫无意义的随机字符,模型不但要定位准,还得一字不差地复述出来,随机字符还在旁边干扰。视频里直接把 MRCR 的题丢给 GLM-5.2 实测,答案和原文逐字比对,一字不差。这关算过了。
第二个方向更接近真实使用:连续执行一个超长任务,不会做着做着就忘了前面、越飘越远。这考的是长程任务的稳定性。比如 Frontier SWE 这类评测,长上下文只是入场券,真正考的是 Agent 长时间运行的稳定。更夸张的还有 SWE Marathon,里面每道题几乎都是一个工程团队几个月的工作量,比如用 Rust 从零重写一门语言的编译器。
这两个方向的差别,我觉得是整期视频里最该记住的一点。长文定位是「大海捞针」,考的是记性;长程任务是「跑马拉松」,考的是模型能不能在几十步、上百步操作里保持思路清晰、目标不丢。能记住,和能一直用对,完全是两回事。
GLM-5.2 的三个具体做法
回到智谱这次新发布的 GLM-5.2,视频拿它当例子,对应上面三个问题各给了一个技术。
对付计算量:index share。 稀疏注意力靠一个 indexer 给每个历史 token 打分,挑出 Top-K 再算注意力。但 Transformer 层数一多,每层都跑一遍 indexer,开销又上来了。index share 的做法顾名思义:让几个注意力层共用一个 indexer,最底层算完打分,上面几层直接复用,不用重算。计算量又降一级。
对付显存:LayerSplit。 一句话说清,就是每张 GPU 不再存全部层的 KV Cache,按层切开分摊到多卡,单卡显存压力就下来了。
对付有效性:Slime。 为了撑住 Agent 强化学习后训练这类复杂任务,智谱做了一套 Agent 后训练的基础设施框架 slime,专门提升长程任务的训练效果。
三个技术分别对应计算量、显存、有效性。方向上各家是一致的,区别只在具体怎么实现。
我的几点判断
第一,1M 已经从卖点变成地板。 翻我之前的笔记,今年五月还有人实测国产四家模型,当时 GLM-5.1 的上下文窗口只有 200K,是四家里最短的。一个多月后 GLM-5.2 直接标配 1M,等于从垫底追到第一梯队。窗口长度这条线,正在快速失去区分度。
第二,竞争换了赛道。 当所有人都标到 1M,「能塞多长」就不再是问题,「能不能用满」才是。评测标准的迁移说明了这点:从 MRCR 这种长文定位,转向 SWE Marathon 这种 Agent 长程任务。有效的上下文不只是让模型记住很久以前的内容,更是让它在长链条推理里一直保持逻辑自洽、目标贯穿。这跟我一直关注的方向对得上——进入 Agent 时代,上下文的价值不在「存量」,在「在线维持推理状态的能力」。
第三,提醒一个容易混的点。 视频里的 MSA 指 MiniMax Sparse Attention,是厂商的具体方案。但 MSA 这个缩写还有另一个常见用法,是开源框架 Memory Sparse Attention(EverMind),靠稀疏注意力加文档级 RoPE 把有效上下文推到一亿 token,1M 长度下大海捞针准确率还能保持 94.84%。两个 MSA 同名不同物,看资料时别搞混,但它们殊途同归,都是稀疏注意力这条路上的产物。
最后留一句视频里的话。我们人脑连一串电话号码都记不全,却照样足够聪明。上下文长度一定会继续涨,但真正解决问题的,未必是更长的窗口,而是更聪明地用它。










AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航