开发者反馈 GLM-5.2 无法正确调用 MCP 工具，指令遵循能力出现倒退

近期在开发者社区 Linux.do 中，有用户报告智谱 AI 发布的最新基座模型 GLM-5.2 在指令遵循和工具调用方面存在明显的功能性倒退。该用户在构建代码检索工作流时，基于 MCP（Model Context Protocol）协议集成了专门的检索工具，并在系统提示词中明确要求模型优先调用该外部工具。实测结果显示，GLM-5.2 在执行具体任务时倾向于使用内置的 grep 命令进行搜索，完全忽略了 MCP 工具的调用指令。然而，当用户仅询问解决方案的逻辑步骤时，GLM-5.2 却能正确回答出应优先使用 MCP 工具，显示出模型存在“知行不一”的推理与执行割裂现象。相比之下，Anthropic 的 Claude 模型以及 GLM 的上一代版本 GLM-5.1 均能严格按照指令优先调用 MCP 协议工具，表现出了更好的工具 grounding（落地）能力。MCP 协议作为连接大模型与外部数据源的重要标准，其调用的稳定性直接关系到 AI Agent 在实际工作流中的可靠性，此次 GLM-5.2 的表现引发了社区对于模型更新后基础能力稳定性的担忧。

事件分析

该事件揭示了当前大模型在 Agent 应用落地中的核心技术痛点——工具调用的鲁棒性与指令遵循的一致性。GLM-5.2 能够在逻辑层面理解意图却在执行层面回归默认行为（如直接 grep），说明该模型在针对特定工具的微调（SFT）或对齐（RLHF）阶段可能出现了过拟合或负优化。随着 MCP 协议逐渐成为 AI 工具链的标准接口，模型能否精准识别并调用 MCP 工具成为衡量其工程化落地能力的关键指标。对于致力于构建自动化工作流的开发者而言，模型的“智能”提升如果以牺牲接口调用的确定性为代价，将极大增加开发成本和容错难度。这提示行业在追求模型参数规模增长的同时，必须加强对特定垂直场景工具调用的专项测试与对齐，确保“知”与“行”的统一。

💡 核心观点：GLM-5.2 出现的“懂逻辑却难执行”现象，暴露出当前大模型在 Agent 场景下工具调用的稳定性仍是顽疾，模型迭代不能仅以通用能力提升为导向。

原文链接：Linux.do

事件分析

Shazeer 的离职与入职是近期硅谷 AI 领域最重磅的人才变动。作为 Transformer 架构的共同发明者，他在大模型底层技术上的话语权仅次于极少数先驱。对于 OpenAI 而言，吸纳 Shazeer 不仅仅是一次招聘，更是一次技术护城河的加固，极有可能加速其在模型推理能力优化及个性化 Agent 领域的研发进程。反观 Google，尽管坐拥海量算力和 DeepMind 等顶尖实验室，但核心算法领袖的流失暴露了其内部在创新落地和人才留存机制上的深层矛盾。这一事件也标志着 AI 战争已从单纯的红利期竞争，转入对核心定义权和稀缺智力资源的零和博弈阶段。

💡 核心观点：Transformer 之父加入 OpenAI 意味着顶级算法话语权向通用人工智能目标的进一步集中，Google 在基础模型创新的主导力正面临严峻挑战。

事件分析

本事件凸显了顶尖AI模型正成为大国博弈的核心资产，传统的盟友关系无法豁免基于供应链溯源的安全审查。技术方面，Fable 5被指出的防护绕过漏洞表明，即便经过严格红队测试的前沿模型，在实际部署中仍面临不可忽视的“越狱”风险。Anthropic选择彻底下线而非实施国籍隔离，反映了在现有技术架构下，精准实施地缘政治合规的成本极高。这意味着未来AI模型的分发将面临更严格的“受信客户”审核，地缘政治风险正迫使大模型公司重构其全球商业与安全策略。

💡 核心观点：盟友身份不再是AI技术出口的护身符，地缘政治风险正迫使大模型公司收紧全球分发策略。

事件分析

从技术架构视角来看，该规范本质上是为 AI 生态引入了类似微服务架构中的“服务发现”机制。这意味着 AI 应用开发模式正从“硬编码指令”向“动态能力编排”转型，允许 Agent 根据实时任务需求主动寻找并挂载最优的外部能力。这一标准化尝试有望打破当前 AI 工具链的“孤岛效应”，大幅降低开发者在集成不同 API 和工具时的维护成本。对于产业而言，这不仅补全了 AI 智能体的基础设施短板，更为未来构建“Agent 应用商店”或动态工具市场奠定了标准基础。一旦该规范被广泛采纳，AI 智能体的能力边界将不再受限于开发者预装的工具集，而是能够像人类一样通过“查询目录”来即时扩展技能。

💡 核心观点：AI 智能体从被动接收指令到主动发现资源，标志着行业竞争焦点已从单一的模型能力转向基础设施与连接标准。

事件分析

这篇迁移记反映了现代开发者工作流对“环境一致性”的极致追求。随着开发工具链日益复杂，特别是 AI 编程助手的引入，传统的符号链接工具在面对多设备、多身份配置时显得捉襟见肘。Chezmoi 等新一代工具通过模板化和脚本钩子，将单纯的文件管理升级为“环境即代码”的自动化部署方案。值得关注的是，作者将 AI Agent 的“技能文件”纳入版本控制管理，这表明 AI 辅助编程的配置已从简单的环境变量演变为结构化的知识库。Anthropic 推出的 Agent Skills 标准正逐渐成为行业共识，开发者开始像管理代码一样管理提示词和上下文文件，这种“Prompt-as-Code”的实践将显著提升 AI 工具在不同机器间协作的效率和稳定性。

💡 核心观点：从 Chezmoi 的流行看开发工具演进：AI 技能文件正在成为开发者版本控制的新标准。

事件分析

该事件深刻揭示了 AI 编程工具在安全策略执行层面的环境差异问题。技术视角分析，WSL 作为一个虚拟化子层，其环境指纹与原生 Windows 存在差异，可能导致被租户安全策略归类为“不可信上下文”，从而触发了比桌面端更严格的代码外发审查。桌面端应用可能利用了 OS 级的信任链或特定的 API 调用来绕过这一层检测，而 CLI 接口则暴露了原始的请求行为。这反映出当前 AI Agent 在执行“代码上下文共享”这类高风险操作时，缺乏统一且透明的权限管理标准。随着 MCP 协议的普及，如何确保开发者在不同终端环境中获得一致的策略体验，避免因环境误判阻断开发流程，将是 AI 开发工具链亟待解决的技术痛点。

💡 核心观点：WSL与Windows应用的双重标准暴露了AI编码工具在租户策略执行上的环境割裂，统一的信任链与透明度机制亟待建立。

开发者反馈 GLM-5.2 无法正确调用 MCP 工具，指令遵循能力出现倒退

事件分析

相关推荐

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

Transformer 论文联合作者 Noam Shazeer 宣布加入 OpenAI

事件分析

涉嫌对华联系，美政府勒令Anthropic切断SK电信对Claude Mythos访问权限

事件分析

AI 智能体如何“找工具”？新规范试图解决 Agent 资源自动发现难题

事件分析

开发者反馈 GLM-5.2 无法正确调用 MCP 工具，指令遵循能力出现倒退

事件分析

告别符号链接烦恼：为何开发者选择从 GNU Stow 迁移至 Chezmoi

事件分析

WSL环境下AI编码工具触发安全拦截：MCP协议调用与策略执行差异分析

事件分析

最新文章

热门专题

热门标签

网站统计

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。