云聚 AI Token Plan 满 199 减 35 元
port:80 AI Junkie
AI 重度玩家的工程笔记本
DigitalOcean 开发者云

模型越强工具越烂?Anthropic 新版 Claude 疑因过度拟合自家编辑器导致调用失效

云聚 AI Token Plan 满 199 减 35 元

知名开发者 Armin Ronacher 近日发布博文,指出 Anthropic 最新的 Opus 4.8 和 Sonnet 5 模型在工具调用能力上出现了令人意外的倒退。在其开源项目 Pi 的测试中,这些代表业界最高水平(SOTA)的新模型在调用文件编辑工具时,会频繁“凭空捏造”出 Schema 中不存在的参数字段(如 `requireUnique`、`oldText2` 等),导致调用被服务器拦截,而旧版模型反而能严格遵守规范。文章分析认为,这并非模型随机能力下降,而是训练策略带来的副作用。新版模型在后训练阶段可能过度针对 Anthropic 自家的闭源代码编辑器 Claude Code 进行了强化学习。由于 Claude Code 的客户端内置了极高的容错机制(如自动修复参数别名、过滤未知键、修复 Unicode 转义等),模型在训练中习惯了这种“宽松”环境。当面对 Pi 这种严格遵循 Schema、不接受多余字段的外部工具时,模型基于 Claude Code 学到的强大先验经验反而成了干扰源,导致其固执地添加自认为正确但实际非法的参数。虽然开启 Anthropic 的“严格模式”可以强制通过采样约束解决此问题,但这暴露了封闭模型生态与通用工具标准之间日益加深的鸿沟。

事件分析

该事件深刻反映了当前 Agent 开发中模型通用性与特定生态优化之间的深层矛盾。从技术角度看,LLM 的工具调用本质仍是基于概率的文本生成,极易受到训练数据分布的影响。Anthropic 若在 RLHF 阶段过度依赖自家封闭的 Claude Code 作为奖励信号,会导致模型对非官方标准的工具 Schema 产生“排异反应”。从产业影响来看,这暗示了未来 AI 开发可能面临“生态锁定”风险:开发者若想发挥模型的最佳性能,可能被迫放弃通用的标准协议,转而去适配大模型厂商隐含的私有格式或工具定义习惯。这种“越强越专用”的趋势,虽然可能优化官方体验,但无疑增加了第三方工具集成的难度,可能导致 AI 工具链的碎片化,迫使开发者在追求模型智能度和保持架构灵活性之间做出艰难抉择。

💡 核心观点:大模型在特定封闭生态的过度训练,正在以牺牲通用严谨性为代价,换取特定场景下的表现提升,这恐将导致工具调用标准的“巴别塔”效应。

阿里云 OPC 一人公司创业装备库

原文链接:Hacker News

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:80aj » 模型越强工具越烂?Anthropic 新版 Claude 疑因过度拟合自家编辑器导致调用失效
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐