一位开发者在使用 Claude Code 进行 AI 编程时,通过自建的 NewAPI 中转服务接入 OpenCode Go 提供的 GLM-5.2 模型,却遭遇了异常高昂的 API 调用费用。该用户的技术架构采用了多层转换模式:利用 NewAPI 将 OpenAI 格式接口转换为兼容 Claude Code 的格式,并经由 cc-switch 进行连接。在配置过程中,由于中间层出现了 `cache_control` 参数报错,用户被迫在 Claude Code 配置中启用了 `DISABLE_PROMPT_CACHING` 参数。然而,即便完成了配置,系统单次请求的平均费用仍高达 0.5 美元左右,远超使用 DeepSeek V4 Pro 等竞品的预期。通过检查请求日志,用户发现所有调用似乎均未命中提示词缓存,导致每次交互都按照全量输入输出 Token 进行计费。目前该问题引发了对中转服务是否透传缓存控制参数,以及 OpenCode 侧模型是否原生支持缓存的广泛质疑。
事件分析
💡 核心观点:API 中转层对元数据的透传缺失会导致提示词缓存机制失效,开发者在构建异构模型链路时必须警惕协议兼容性带来的隐形技术债务。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航