OpenRouter 开发者 Jacky Liang 进行了一项独特的“大逃杀”实验,将 11 个主流大模型放入 2D 对战环境中进行 30 场博弈。结果显示,Grok 4.1 Fast 以 43% 的胜率和极低的单次获胜成本($0.97)碾压对手,而 Claude Sonnet 4.6 虽然排名第二,但获胜成本高出 27 倍($26.78)。实验发现,模型的胜负不仅取决于推理能力,更受其“性格”影响。Grok 展现出极高的攻击性和战术执行力,利用车辆冲撞等激进战术;而 Claude Sonnet 则频繁尝试结盟、分享物资,表现出过度的合作倾向,导致在零和博弈中处于劣势。GPT-5.4 虽然击杀数最高,但因策略激进且缺乏稳健性,最终胜率不佳。实验揭示了“对齐税”现象:为安全性而过度微调的模型在竞争性任务中会牺牲生存能力。这意味着传统的静态基准测试无法有效评估 AI Agent 在动态对抗环境中的真实表现。
事件分析
💡 核心观点:静态基准已死,AI Agent 的真实价值取决于动态博弈中的“性格”与执行效率,过度安全的模型将付出生存代价。
原文链接:Hacker News







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航