Context Arena 发布了最新一轮的 MRCR v2(大海捞针测试)基准排行榜,重点评测了各大主流 AI 模型在处理 100 万 token(1M)超长上下文窗口时的信息提取精度(AUC)。此次成绩显示,在长文本能力这一关键维度上,OpenAI 的新代际模型“GPT-5.5”以 50.9% 的得分占据榜首,显示出极强的长文本稳定性和召回能力。Anthropic 的 Claude 系列表现依然强劲,Opus 4.6 和 Sonnet 4.6 分别以 46.9% 和 44.4% 紧随其后,优于谷歌的 Gemini 3.5 Flash(43.3%)。在国产大模型的表现方面,榜单数据揭示了一些有趣的排位变化。智谱 AI 的 GLM 5.2 模型在 1M 上下文测试中获得了 33.0% 的得分,这一成绩虽然与顶尖梯队尚有差距,但显著超过了近期备受关注的 DeepSeek V4 Pro(28.3%)以及 Mimo V2.5 Pro(15.3%)。这表明在“大海捞针”这一极端测试场景下,不同模型架构对长距离依赖关系的处理能力存在显著差异。
事件分析
💡 核心观点:长上下文窗口已成大模型核心赛场,国产梯队中 GLM 5.2 暂时领跑,但头部厂商的神秘新版本已展现出断层优势。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪