1M 上下文，难点已经换了地方

一年前，模型支持 100 万 token 上下文还是发布会上的高光环节。现在它更像手机快充，人人都有，没有反而奇怪。Claude、OpenAI、Gemini 在海外，DeepSeek、MiniMax、Kimi、智谱在国内，新发布的模型几乎默认标配。

飞天闪客的这期视频用六分钟讲清了一件容易被跳过的事：1M 上下文到底难在哪，以及当所有人都做到之后，竞争其实换了一条赛道。下面是我看完后的梳理和一点延伸判断。原视频在这里：https://www.youtube.com/watch?v=PAKJPIpjUeo

1M 上下文是什么，为什么以前做不到

先说清楚概念。某个模型支持 1M 上下文，意思是你可以一次性喂给它 100 万个 token。token 可以粗略理解成模型处理文字的最小单位，一个汉字大约一到两个 token。

为什么这件事重要？上下文窗口小的模型，多轮对话之后就撑不住了，要么清空历史，要么压缩历史。但压缩本身也要占窗口，而且对信息有损。如果你一上来就要塞进去一大堆资料，窗口不够连压缩都没机会做。窗口大，模型才能在长对话、大文档、长任务里保持住完整信息。

既然痛点这么明显，为什么厂商不一开始就把窗口拉满，而是一点一点往上挪？难点在大模型架构里的注意力层。

每生成一个新 token，模型都要拿它和前面所有 token 算一遍相关性。token 越多，计算量涨得越快，复杂度是 O(N²)——长度翻倍，计算量变四倍。同时，每个 token 算出来的 K、V 向量都要以 KV Cache 的形式存在显存里，token 越多，显存占用越大。算不动，也存不下，这是 1M 上下文一直上不去的两座山。

三个必须同时解决的问题

显存这一座，有现成的压缩手段。MQA、GQA、MLA 这一系列方法，本质是让多个注意力头共享或压缩 K、V，把 KV Cache 占用降下来。

算力这一座更棘手。早期有个办法叫滑动窗口注意力（Sliding Window Attention，SWA），思路简单粗暴：每次只算固定窗口内的 token，窗口外的直接不看。问题是它用距离远近来取舍，太一刀切，窗口外万一藏着关键信息就丢了。

于是有了更精细的稀疏注意力（Sparse Attention）：不是按距离切，而是从全部历史 token 里挑出少量真正相关的来算。怎么挑，各家方案不同。DeepSeek 叫 DSA（DeepSeek Sparse Attention），MiniMax 叫 MSA（MiniMax Sparse Attention），名字不一样，思路是一致的。

但光把计算量和显存压下去还不够。这里有第三个、也是最关键的问题：有效性。窗口标了 1M，不代表里面的信息真的能用。把一整本《三体》塞进去，结果一问连叶文洁是谁都答不上来，那这个 1M 就是虚标。

怎么验证「真的能用」

视频里把有效性的测试分成两个方向，这部分我觉得是最值得记住的。

第一个方向是长文定位，也就是从海量信息里精确找到某一段话。经典基准 MRCR 把这件事做得很变态：要找的那段话前面会加一串毫无意义的随机字符,模型不但要定位准，还得一字不差地复述出来，随机字符还在旁边干扰。视频里直接把 MRCR 的题丢给 GLM-5.2 实测，答案和原文逐字比对，一字不差。这关算过了。

第二个方向更接近真实使用：连续执行一个超长任务，不会做着做着就忘了前面、越飘越远。这考的是长程任务的稳定性。比如 Frontier SWE 这类评测，长上下文只是入场券，真正考的是 Agent 长时间运行的稳定。更夸张的还有 SWE Marathon，里面每道题几乎都是一个工程团队几个月的工作量，比如用 Rust 从零重写一门语言的编译器。

这两个方向的差别，我觉得是整期视频里最该记住的一点。长文定位是「大海捞针」，考的是记性；长程任务是「跑马拉松」，考的是模型能不能在几十步、上百步操作里保持思路清晰、目标不丢。能记住，和能一直用对，完全是两回事。

GLM-5.2 的三个具体做法

回到智谱这次新发布的 GLM-5.2，视频拿它当例子，对应上面三个问题各给了一个技术。

对付计算量：index share。 稀疏注意力靠一个 indexer 给每个历史 token 打分，挑出 Top-K 再算注意力。但 Transformer 层数一多，每层都跑一遍 indexer，开销又上来了。index share 的做法顾名思义：让几个注意力层共用一个 indexer，最底层算完打分，上面几层直接复用，不用重算。计算量又降一级。

对付显存：LayerSplit。 一句话说清，就是每张 GPU 不再存全部层的 KV Cache，按层切开分摊到多卡，单卡显存压力就下来了。

对付有效性：Slime。 为了撑住 Agent 强化学习后训练这类复杂任务，智谱做了一套 Agent 后训练的基础设施框架 slime，专门提升长程任务的训练效果。

三个技术分别对应计算量、显存、有效性。方向上各家是一致的，区别只在具体怎么实现。

我的几点判断

第一，1M 已经从卖点变成地板。 翻我之前的笔记，今年五月还有人实测国产四家模型，当时 GLM-5.1 的上下文窗口只有 200K，是四家里最短的。一个多月后 GLM-5.2 直接标配 1M，等于从垫底追到第一梯队。窗口长度这条线，正在快速失去区分度。

第二，竞争换了赛道。 当所有人都标到 1M，「能塞多长」就不再是问题，「能不能用满」才是。评测标准的迁移说明了这点：从 MRCR 这种长文定位，转向 SWE Marathon 这种 Agent 长程任务。有效的上下文不只是让模型记住很久以前的内容，更是让它在长链条推理里一直保持逻辑自洽、目标贯穿。这跟我一直关注的方向对得上——进入 Agent 时代，上下文的价值不在「存量」，在「在线维持推理状态的能力」。

第三，提醒一个容易混的点。 视频里的 MSA 指 MiniMax Sparse Attention，是厂商的具体方案。但 MSA 这个缩写还有另一个常见用法，是开源框架 Memory Sparse Attention（EverMind），靠稀疏注意力加文档级 RoPE 把有效上下文推到一亿 token，1M 长度下大海捞针准确率还能保持 94.84%。两个 MSA 同名不同物，看资料时别搞混，但它们殊途同归，都是稀疏注意力这条路上的产物。

最后留一句视频里的话。我们人脑连一串电话号码都记不全，却照样足够聪明。上下文长度一定会继续涨，但真正解决问题的，未必是更长的窗口，而是更聪明地用它。

事件分析

此次事件揭示了 AI 训练数据供应链中一个极其隐蔽但危害巨大的盲区：数据的“不可撤销性”与“镜像放大效应”。不同于可以通过强制推送撤销的 Git 历史，一旦敏感密钥进入公共训练语料库，它会被无数次复制、混入衍生数据集并最终固化为模型权重。扫描显示，44% 的泄露密钥出现在多个数据集中，部分来自 The Stack 或 Common Crawl 等上游源头，这种污染具有机械放大的特性。技术上，除了传统的 GitHub 泄露，聊天机器人交互日志已成为新的密钥泄露源头，开发者将含有凭证的代码粘贴给 AI 助手进行调试，导致凭证被捕获并扩散。对于产业而言，这迫使 AI 开发者必须引入“秘密扫描”作为数据清洗的标准前置步骤。未来，开源模型的信誉将不再仅基于性能指标，还需基于其数据集的“卫生”状况，未经审计的公共数据集可能会面临严格的准入限制。

💡 核心观点：训练数据的不可逆性使密钥泄露成为永久性隐患，AI 供应链亟需建立“清洁数据”标准。

事件分析

从技术层面分析，用户产生“误用”且体验优于原定模型的现象，主要归功于 DeepSeek 在推理优化和响应延迟上的突破。DeepSeek 近期发布的模型在架构上进行了深度优化，特别是在处理长上下文和复杂逻辑时，首字生成时间（TTFT）和吞吐量往往能带来更流畅的交互感。这种“无感切换”证明了在通用任务场景下，开源系或技术流模型的体验已经能够比肩甚至在特定维度超越闭源头部产品。关于“Pro版灰度测试”的猜测，也暗示了厂商在模型服务端的动态部署策略（AB Test 或动态路由），旨在通过实际负载检验高参数量模型的边缘能力。对于产业而言，这标志着大模型竞争已进入“体验为王”的阶段，单纯的营销噱头正逐渐让位于真实的生成速度与逻辑准确性。

💡 核心观点：用户“误用”模型后的体验反转，标志着国产大模型已跨越技术感知的临界点，性能与体验的实质差距正在抹平。

事件分析

这款工具的推出反映了 AI 辅助编程从单点试用向规模化、工程化应用演进的趋势。随着 Claude Code 等 AI 编程 agent 逐渐深入开发流程，如何高效管理多个并发会话、维护上下文连续性以及控制 API 成本成为新的痛点。Episko 选择 Rust 开发，表明开发者对管理工具的性能、安全性和资源占用有较高要求，这也是目前基础设施类工具的主流技术选择。工具中的成本预测和 token 消耗监控功能，直指 LLM 应用落地中的核心——成本效益。它不仅是一个便利工具，更是 AI 时代的“仪表盘”，预示着未来开发环境将更加深度地与 AI 模型交互层融合，专门针对 AI Agent 的编排和管理（Orchestration）将成为独立于 IDE 之外的新赛道。

💡 核心观点：从 IDE 插件到独立“驾驶舱”的演进，标志着 AI Agent 开发正进入需精细化成本控制与上下文管理的专业化新阶段。

事件分析

本事件的技术核心在于商业平台对去中心化协议的“流量截留”与“入口控制”。RSS 允许用户直接获取内容，绕过算法推荐与广告分发，这与 Google 基于广告变现的商业模式存在根本冲突。通过收购并废弃关键的 RSS 基础设施，Google 成功将信息消费导向其封闭的围墙花园。这种策略表明，开放协议若缺乏多元化的基础设施支持，极易被单一巨头“扼杀”。Google Reader 的关闭导致了 RSS 生态长达数年的断层，也警示开发者依赖单一商业实体的开源项目所面临的风险。当前，随着对算法控制的反思，RSS 的复兴趋势正在形成，但这要求技术社区必须构建独立于科技巨头、抗审查且去中心化的新一代内容聚合基础设施。

💡 核心观点：谷歌对RSS的打压揭示了科技巨头通过控制流量入口来瓦解开放协议的根本动机，即牺牲开放性以换取算法推荐与广告变现的垄断利益。

事件分析

此次事件揭示了形式化验证工具在 AI 辅助编程时代面临的新型挑战。虽然 Lean 等系统旨在构建绝对可信的数学与代码逻辑基础，但其内核实现（尤其是对复杂类型的处理）仍存在被攻破的可能。AI 在此事件中扮演了“双刃剑”的角色：它既生成了利用漏洞的复杂逻辑，也可能成为未来测试内核健壮性的有效工具。对于数学软件和编译器开发而言，这意味着单纯的逻辑正确性已不足以保证系统安全，必须引入更严格的模糊测试和对抗性测试，以防御 AI 生成的边缘案例攻击，确保形式化证明的绝对可靠性。

💡 核心观点：AI 不仅是编程助手，更能充当高级“模糊测试器”，挖掘形式化工具深处的逻辑盲区。

事件分析

此事件体现了提示词工程在优化大模型落地应用中的关键作用。目前的通用大模型虽具备强大的语言处理能力，但在翻译任务中常受限于训练数据的分布特征及RLHF对齐策略，倾向于生成四平八稳但缺乏个性的“机器腔”。用户通过设计包含角色定义、行为边界及否定约束的复杂提示词，实际上是在调用大模型的上下文学习能力，通过显式的逻辑规则覆盖了模型默认的生成偏好。

该提示词中的“语境自适应”与“句法重构”模块，模拟了人类高级翻译的思维过程，即先理解文体再进行转换。这表明，不需要对模型参数进行微调或重新训练，仅需在推理阶段注入高质量的“思维链”，即可显著改善模型的表现。这种通过提示词挖掘模型“潜力”而非“能力”的方式，对于未来构建更具专业性的AI Agent或辅助工具有重要的借鉴意义，特别是在写作辅助、代码转换及跨语言沟通等对语言质感要求较高的场景中。

💡 核心观点：通过精细化的结构化提示词，可有效矫正大模型的“翻译腔”通病，低成本挖掘通用模型的垂直潜力。

1M 上下文，难点已经换了地方

1M 上下文是什么，为什么以前做不到

三个必须同时解决的问题

怎么验证「真的能用」

GLM-5.2 的三个具体做法

我的几点判断

相关推荐

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

震惊：扫描7.6PB HuggingFace数据竟发现22万个有效密钥，AI供应链面临安全风暴

事件分析

社区实测反馈：DeepSeek 意外“平替” Kimi，推理速度与响应质量获用户好评

事件分析

开源工具 Episko：用 Rust 为 Claude Code 打造的 Agent 管理驾驶舱

事件分析

谷歌如何系统性瓦解RSS：从“拥抱、扩展、毁灭”看开放协议的衰退

事件分析

Lean 内核漏洞复盘：AI 辅助生成 Collatz 猜想“伪证”始末

事件分析

告别AI翻译腔：用户分享专属豆包的“王牌翻译家”提示词工程

事件分析

最新文章

热门专题

热门标签

网站统计