知名开发者 Armin Ronacher 近日发布博文,指出 Anthropic 最新的 Opus 4.8 和 Sonnet 5 模型在工具调用能力上出现了令人意外的倒退。在其开源项目 Pi 的测试中,这些代表业界最高水平(SOTA)的新模型在调用文件编辑工具时,会频繁“凭空捏造”出 Schema 中不存在的参数字段(如 `requireUnique`、`oldText2` 等),导致调用被服务器拦截,而旧版模型反而能严格遵守规范。文章分析认为,这并非模型随机能力下降,而是训练策略带来的副作用。新版模型在后训练阶段可能过度针对 Anthropic 自家的闭源代码编辑器 Claude Code 进行了强化学习。由于 Claude Code 的客户端内置了极高的容错机制(如自动修复参数别名、过滤未知键、修复 Unicode 转义等),模型在训练中习惯了这种“宽松”环境。当面对 Pi 这种严格遵循 Schema、不接受多余字段的外部工具时,模型基于 Claude Code 学到的强大先验经验反而成了干扰源,导致其固执地添加自认为正确但实际非法的参数。虽然开启 Anthropic 的“严格模式”可以强制通过采样约束解决此问题,但这暴露了封闭模型生态与通用工具标准之间日益加深的鸿沟。
事件分析
💡 核心观点:大模型在特定封闭生态的过度训练,正在以牺牲通用严谨性为代价,换取特定场景下的表现提升,这恐将导致工具调用标准的“巴别塔”效应。
原文链接:Hacker News






