云聚 AI Token Plan 满 199 减 35 元
port:80 AI Junkie
AI 重度玩家的工程笔记本
DigitalOcean 开发者云

MRCR 长上下文基准更新:GPT 5.5 拿下榜首,GLM 5.2 力压 DeepSeek V4 Pro

云聚 AI Token Plan 满 199 减 35 元

Context Arena 发布了最新一轮的 MRCR v2(大海捞针测试)基准排行榜,重点评测了各大主流 AI 模型在处理 100 万 token(1M)超长上下文窗口时的信息提取精度(AUC)。此次成绩显示,在长文本能力这一关键维度上,OpenAI 的新代际模型“GPT-5.5”以 50.9% 的得分占据榜首,显示出极强的长文本稳定性和召回能力。Anthropic 的 Claude 系列表现依然强劲,Opus 4.6 和 Sonnet 4.6 分别以 46.9% 和 44.4% 紧随其后,优于谷歌的 Gemini 3.5 Flash(43.3%)。在国产大模型的表现方面,榜单数据揭示了一些有趣的排位变化。智谱 AI 的 GLM 5.2 模型在 1M 上下文测试中获得了 33.0% 的得分,这一成绩虽然与顶尖梯队尚有差距,但显著超过了近期备受关注的 DeepSeek V4 Pro(28.3%)以及 Mimo V2.5 Pro(15.3%)。这表明在“大海捞针”这一极端测试场景下,不同模型架构对长距离依赖关系的处理能力存在显著差异。

事件分析

此次排行榜不仅展示了各家模型在长上下文领域的硬实力,也暴露出不同技术路线在处理超长文本时的稳定性差异。数据中出现的“GPT-5.5”和“Claude 4.6”等非官方发布版本号的模型,极有可能是头部厂商内部测试的高阶版本或特定参数配置,暗示了下一代模型可能在长文本理解上已取得突破。在国产梯队中,GLM 5.2 能够在 1M 上下文测试中领先于 DeepSeek V4 Pro,说明智谱在长窗口推理优化上可能采用了更有效的注意力机制或显存管理方案。对于开发者而言,DeepSeek V4 Pro 在该项测试中得分低于 30%,意味着在需要处理海量代码库或长文档摘要的场景下,其“幻觉”风险可能相对高于 GLM 5.2。

💡 核心观点:长上下文窗口已成大模型核心赛场,国产梯队中 GLM 5.2 暂时领跑,但头部厂商的神秘新版本已展现出断层优势。

阿里云 OPC 一人公司创业装备库

原文链接:Linux.do

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:80aj » MRCR 长上下文基准更新:GPT 5.5 拿下榜首,GLM 5.2 力压 DeepSeek V4 Pro
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐