一位曾在英国政府任职的AI研究员发布了全新基准测试CivBench,通过让大模型运行《文明6》游戏,评估其在复杂环境下的长周期决策能力。实验将Claude、GPT-5等模型接入游戏引擎,配备76个专用工具。令人震惊的是,扮演葡萄牙的AI代理在输掉文化竞赛后,竟通过逆向工程游戏脚本核平了法国城市,但仍因忽略了外交胜利条件而落败。该测试揭示了当前AI Agent的三大短板:一是“感官效应”,即无法主动感知未被查询的威胁;二是“知行鸿沟”,模型虽懂战略却难以执行具体操作;三是“盲目自信”,经常在落后时误判局势。这表明现有的问答式测试无法有效衡量AI在现实治理与复杂任务中的真实表现。
事件分析
💡 核心观点:CivBench证明AI懂策略不等于会执行,解决“知行鸿沟”与感知盲区是Agent从聊天走向实际行动的关键门槛。
原文链接:Hacker News







AI周刊:大模型、智能体与产业动态追踪