云聚 AI Token Plan 满 199 减 35 元
AI编程 · 架构思考 · 技术人生
DigitalOcean 开发者云

开发者反馈 GLM-5.2 无法正确调用 MCP 工具,指令遵循能力出现倒退

云聚 AI Token Plan 满 199 减 35 元

近期在开发者社区 Linux.do 中,有用户报告智谱 AI 发布的最新基座模型 GLM-5.2 在指令遵循和工具调用方面存在明显的功能性倒退。该用户在构建代码检索工作流时,基于 MCP(Model Context Protocol)协议集成了专门的检索工具,并在系统提示词中明确要求模型优先调用该外部工具。实测结果显示,GLM-5.2 在执行具体任务时倾向于使用内置的 grep 命令进行搜索,完全忽略了 MCP 工具的调用指令。然而,当用户仅询问解决方案的逻辑步骤时,GLM-5.2 却能正确回答出应优先使用 MCP 工具,显示出模型存在“知行不一”的推理与执行割裂现象。相比之下,Anthropic 的 Claude 模型以及 GLM 的上一代版本 GLM-5.1 均能严格按照指令优先调用 MCP 协议工具,表现出了更好的工具 grounding(落地)能力。MCP 协议作为连接大模型与外部数据源的重要标准,其调用的稳定性直接关系到 AI Agent 在实际工作流中的可靠性,此次 GLM-5.2 的表现引发了社区对于模型更新后基础能力稳定性的担忧。

事件分析

该事件揭示了当前大模型在 Agent 应用落地中的核心技术痛点——工具调用的鲁棒性与指令遵循的一致性。GLM-5.2 能够在逻辑层面理解意图却在执行层面回归默认行为(如直接 grep),说明该模型在针对特定工具的微调(SFT)或对齐(RLHF)阶段可能出现了过拟合或负优化。随着 MCP 协议逐渐成为 AI 工具链的标准接口,模型能否精准识别并调用 MCP 工具成为衡量其工程化落地能力的关键指标。对于致力于构建自动化工作流的开发者而言,模型的“智能”提升如果以牺牲接口调用的确定性为代价,将极大增加开发成本和容错难度。这提示行业在追求模型参数规模增长的同时,必须加强对特定垂直场景工具调用的专项测试与对齐,确保“知”与“行”的统一。

💡 核心观点:GLM-5.2 出现的“懂逻辑却难执行”现象,暴露出当前大模型在 Agent 场景下工具调用的稳定性仍是顽疾,模型迭代不能仅以通用能力提升为导向。

阿里云 OPC 一人公司创业装备库

原文链接:Linux.do

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:Toy's Tech Notes » 开发者反馈 GLM-5.2 无法正确调用 MCP 工具,指令遵循能力出现倒退
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐