本文报道了一项针对大语言模型代码安全审计能力的极限测试。作者构建了一套基于 Mythos(Anthropic 未公开的顶尖漏洞挖掘模型)所发现漏洞的基准测试集,旨在验证当前公开可用的模型是否具备同等的安全挖掘能力。测试涵盖了 OpenAI 的 GPT 5.5 Pro、Anthropic 的 Opus 4.8、Google 的 Gemini 系列以及开源的 Qwen 3.6、DeepSeek 和 Gemma 4 等模型。结果显示,虽然 Mythos 仍保有独特优势(发现了 4 个其他所有模型均未发现的漏洞),但顶级商业模型并非不可撼动。最大的惊喜来自于开源模型:Qwen 3.6 表现惊人,DeepSeek 和 MiMo 以极低成本达到了与顶尖商业模型接近的准确率,而 Google 的 Gemma 4 MoE 甚至发现了一个极具挑战性的漏洞。此外,测试还发现使用 AI Agent 并未显著提升审计效果,反而增加了成本和延迟。
事件分析
💡 核心观点:开源模型在垂直代码推理领域的崛起,正迅速打破前沿模型在安全审计等高难度任务上的绝对垄断。
原文链接:Hacker News







AI周刊:大模型、智能体与产业动态追踪