Mistral AI 正式发布了 Leanstral 1.5,这是一个基于 Apache-2.0 协议的开源模型,专注于形式化验证与数学证明。该模型虽然仅有 60 亿活跃参数,但在性能上实现了重大突破。在 miniF2F 基准测试中,Leanstral 1.5 实现了 100% 的通过率;在极具挑战性的 PutnamBench 和 FATE-H/X 数据集上,它分别解决了 587 个问题并取得了 SOTA 成绩,且推理成本大幅降低至每题约 4 美元,远低于同类竞品。训练方面,该模型经历了中期训练、监督微调及强化学习(CISPO)。其独特的“代码代理环境”使其能像开发者一样操作文件系统、运行命令并利用 Lean 语言服务器实时调试,展现了强大的长上下文推理能力。值得关注的是,Leanstral 1.5 不仅限于数学,还在代码验证领域表现卓越。案例显示,它成功完成了 AVL 树的时间复杂度证明,并构建了一套自动化管道,在 57 个开源仓库中发现了 5 个此前未被报告的深层 Bug(如 datrs 库的溢出问题)。该模型现已通过 Hugging Face 开放权重,并提供免费 API,旨在推动形式化方法在软件工程中的实际应用。
事件分析
💡 核心观点:数学模型向代码验证的跨界应用证明了形式化方法的工程化潜力,低成本、高精度的AI推理将成为软件安全的新防线。
原文链接:Hacker News






