近日,一位科技社区用户在使用 Google 旗下大模型进行测试时,因模型表现极差而引发了广泛讨论。该用户向模型提出了一个关于抛物线准线的数学多选题,这本应是基础几何逻辑测试。然而,Google 模型并未直接进行逻辑推理,而是自行激活了网络搜索功能,耗时近一分钟检索公式。令人失望的是,即便借助了外部工具,模型最终选出的答案(AB)依然是错误的,正确答案应为 ACD。更令用户不满的是,即便在后续对话中明确增加了“禁止使用工具”的指令限制,模型依然未能给出正确结果。这一“翻车”事故不仅让用户对模型的基础数学能力产生质疑,更暴露了 Google 模型在工具调用策略上的混乱。它反映了当前部分大模型在面临逻辑计算时,过度依赖检索增强生成(RAG)技术,却缺乏对检索结果的二次校验能力,导致“知其然不知其所以然”,最终输出荒谬的结论。这也引发了业界对于 AI Agent 智能化程度的担忧,即模型是否能准确判断何时该调用工具以及如何验证工具返回的信息。
事件分析
💡 核心观点:单纯的联网检索无法弥补逻辑推演能力的缺失,大模型过度依赖工具调用反而会引入噪声,导致基础常识性错误。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战