知名安全团队 darknavy(曾首发拼多多漏洞)进行了一项对比实验,旨在评估前沿开源模型在漏洞挖掘领域的真实潜力。实验选取了其内部系统 Mythos 发现的真实漏洞代码,首先将相关代码上下文进行人工切片和拼接,在关闭联网搜索的前提下,投喂给 DeepSeek 等开源模型。结果显示,在提供充分上下文和合理提示词的情况下,这些开源模型成功识别出了绝大多数已知漏洞,证明其已具备足够的安全知识储备。然而,当实验条件变为直接将代码仓库交给 Claude Code、OpenCode 等通用 AI Agent 框架进行自由分析时,结果出现了剧烈波动。模型表现极不稳定,常在无关路径上消耗大量 Token,或过早收敛至错误假设,给出的结论看似合理却无法验证。这一结论表明,当前制约 AI 在网络安全领域应用落地的瓶颈,已不再是模型本身的知识容量或推理智商,而是缺乏能够有效组织知识、引导探索行为的“外部系统”。这标志着行业关注点正从单纯追求模型参数,转向构建更专业的控制框架。
事件分析
💡 核心观点:模型已具备“漏洞智商”,但缺乏“执行力”;在网络安全等高敏感领域,精准的控制框架比模型智商更重要。
原文链接:Linux.do






