近期在开发者社区 Linux.do 中,有用户报告智谱 AI 发布的最新基座模型 GLM-5.2 在指令遵循和工具调用方面存在明显的功能性倒退。该用户在构建代码检索工作流时,基于 MCP(Model Context Protocol)协议集成了专门的检索工具,并在系统提示词中明确要求模型优先调用该外部工具。实测结果显示,GLM-5.2 在执行具体任务时倾向于使用内置的 grep 命令进行搜索,完全忽略了 MCP 工具的调用指令。然而,当用户仅询问解决方案的逻辑步骤时,GLM-5.2 却能正确回答出应优先使用 MCP 工具,显示出模型存在“知行不一”的推理与执行割裂现象。相比之下,Anthropic 的 Claude 模型以及 GLM 的上一代版本 GLM-5.1 均能严格按照指令优先调用 MCP 协议工具,表现出了更好的工具 grounding(落地)能力。MCP 协议作为连接大模型与外部数据源的重要标准,其调用的稳定性直接关系到 AI Agent 在实际工作流中的可靠性,此次 GLM-5.2 的表现引发了社区对于模型更新后基础能力稳定性的担忧。
事件分析
💡 核心观点:GLM-5.2 出现的“懂逻辑却难执行”现象,暴露出当前大模型在 Agent 场景下工具调用的稳定性仍是顽疾,模型迭代不能仅以通用能力提升为导向。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航