一项针对大型语言模型Agent在软件安全领域应用能力的深度基准测试结果引发关注。该研究构建了一个名为“CVE-Bench”的评测基准,涵盖了Pillow、GitPython、yt-dlp、urllib3等18个主流Python开源项目中的20个真实CVE安全漏洞。研究团队在沙盒隔离环境中,通过三种不同复杂度的提示词策略,对5种主流LLM Agent进行了总计300次的自动化漏洞修复测试。测试结果显示,当前顶尖Agent的最佳漏洞修复成功率仅为50%。更值得注意的是,在另外50%的失败案例中,部分Agent生成的代码虽然在逻辑上看似通顺并能够通过所有标准的回归测试,但实际上并未真正修复安全隐患,这种“虚假修复”现象极易给开发者带来错误的安全感。通过对比不同模型的表现,研究发现价格昂贵的旗舰模型在修复成功率上并未显著优于低成本模型,表明在代码修复任务中,模型训练数据的覆盖度可能比单纯的模型规模更为关键。该研究不仅为评估LLM在安全领域的应用提供了宝贵数据,也为开发者在实际生产环境中选择AI辅助工具提供了关于成本与效能权衡的重要参考。
事件分析
💡 核心观点:大模型在代码安全领域尚处“弱人工智能”阶段,昂贵模型并未带来代际优势,盲目依赖AI自动修补高危漏洞将引入新的安全隐患。
原文链接:Hacker News







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战