近期,在开发者社区 Linux.do 上,有用户指出 Opencode 平台提供的 GLM-5.2 大模型出现了明显的“降智”现象。据用户反馈,该问题主要出现在模型推理能力和长文本处理场景中,具体表现为:在启用思考模式时,模型常常错误地将推理的“思维链”内容直接输出至正文,导致内容混乱;同时,模型的语言表达丰富度和长距离依赖的注意力机制均出现显著下滑,这与 GLM-5.2 刚上线时的表现存在巨大反差。
经用户排查分析,认为造成性能下降的主要原因在于上游供应商的变更。据推测,Opencode 可能已将 GLM-5.2 的算力供应商从原来的 Z.AI 切换至了 DeepInfra。截图证据显示,DeepInfra 在部署 GLM-5.2 时采用了 FP4(4位浮点数)量化技术。虽然量化可以有效降低显存占用和推理成本,但 FP4 这种极度压缩的方式往往会导致严重的精度损失,直接影响模型的逻辑推理能力和输出质量。该用户指出,此前在 OpenRouter 上使用 DeepInfra 的服务时,也发现了其 API 质量弱于官方 API 的情况。
值得注意的是,此次性能波动可能仅限于特定模型。Opencode 官网显示,DeepSeek 等其他热门模型的供应商仍为原厂或其他渠道,因此主要使用 DeepSeek 的用户暂未受影响。该事件引发了社区对第三方模型服务平台如何平衡部署成本与模型精度的关注,尤其是对于依赖高精度推理的应用场景(如 AI 角色扮演、复杂逻辑推理),过度量化可能带来的用户体验劣化风险。
事件分析
这暴露了 AI 应用层在模型供应链管理上的潜在风险。随着大模型 API 服务日益碎片化,平台往往在后台动态切换底层供应商以优化成本。对于开发者而言,使用“模型名称”(如 GLM-5.2)作为唯一标识已不足以保证服务的一致性,底层的部署架构(量化等级、推理框架)正在成为影响应用稳定性的隐形变量。这也预示着未来市场可能出现分层:高精度推理服务将保持较高溢价,而低成本服务则需在性能上做出妥协,标准化与透明化的模型服务交付标准亟待建立。
💡 核心观点:激进量化虽能降低部署成本,但精度损失导致的模型“降智”正成为AI应用层供应链中的隐形风险。
原文链接:Linux.do






