一篇来自 V2EX 的技术分析文章指出,业界常用的“缓存命中率”作为衡量 LLM Provider 性能的指标存在严重缺陷。由于命中率是一个百分比,其分母受用户输入长度、子 Agent 调用次数等使用习惯影响巨大,导致该指标混淆了“用户行为”与“Provider 缓存质量”,无法真实反映性能优劣。文章提出应以“绝对未命中数”作为核心指标,即计算“上一条总 Token 数”与“当前从缓存读取 Token 数”的差值,该数值直接量化了被重复处理而浪费的 Token。作者基于 16 万条消息的实证分析显示,不同模型在输出侧 KV 复用能力上差异显著:DeepSeek-v4 能在 85% 的对话中复用上一轮输出,GLM-4.7 为 63%,而 GPT-5.5 仅为 0.3%。这表明 vLLM 和 SGLang 等框架支持的输出侧 KV 复用对控制成本至关重要,未支持该能力的模型会导致严重的资金浪费。为帮助开发者监控,作者发布了一款开源可视化工具,可直接读取本地 OpenCode 的 SQLite 数据库,展示每日缓存未命中情况并下钻至具体会话细节。
事件分析
💡 核心观点:告别虚荣指标:从“相对比率”转向“绝对浪费”度量,是 LLM 落地降本的关键一步。
原文链接:V2EX 分享发现






