云聚 AI Token Plan 满 199 减 35 元
port:80 AI Junkie
AI 重度玩家的工程笔记本
DigitalOcean 开发者云

Mistral AI 发布 Leanstral 1.5:6B 参数模型刷新数学验证 SOTA,可发现深层代码漏洞

云聚 AI Token Plan 满 199 减 35 元

Mistral AI 正式发布了 Leanstral 1.5,这是一个基于 Apache-2.0 协议的开源模型,专注于形式化验证与数学证明。该模型虽然仅有 60 亿活跃参数,但在性能上实现了重大突破。在 miniF2F 基准测试中,Leanstral 1.5 实现了 100% 的通过率;在极具挑战性的 PutnamBench 和 FATE-H/X 数据集上,它分别解决了 587 个问题并取得了 SOTA 成绩,且推理成本大幅降低至每题约 4 美元,远低于同类竞品。训练方面,该模型经历了中期训练、监督微调及强化学习(CISPO)。其独特的“代码代理环境”使其能像开发者一样操作文件系统、运行命令并利用 Lean 语言服务器实时调试,展现了强大的长上下文推理能力。值得关注的是,Leanstral 1.5 不仅限于数学,还在代码验证领域表现卓越。案例显示,它成功完成了 AVL 树的时间复杂度证明,并构建了一套自动化管道,在 57 个开源仓库中发现了 5 个此前未被报告的深层 Bug(如 datrs 库的溢出问题)。该模型现已通过 Hugging Face 开放权重,并提供免费 API,旨在推动形式化方法在软件工程中的实际应用。

事件分析

此次发布的核心看点在于将高端数学推理能力与工程化代码验证进行了深度融合。Leanstral 1.5 证明了通过精巧的架构设计和强化学习训练(CISPO),小参数量模型(6B 活跃参数)在特定垂直领域(形式化验证)足以超越更大规模的通用模型。其“代码代理”形态标志着 AI 从单一文本生成向具备文件系统操作和环境交互能力的“智能体”演进,能够处理百万级 Token 的长周期任务。从产业影响看,该模型显著降低了形式化验证的门槛与成本,将纯数学领域的“证明”能力转化为软件工程中的“找 Bug”利器。随着 FLTEval 等基准的开源,未来软件安全测试可能会从传统的模糊测试向基于大模型的定理证明转变,特别是在对安全性要求极高的底层系统或金融算法库中,这种“机器证明代码正确性”的路径具有极高的应用价值。

💡 核心观点:数学模型向代码验证的跨界应用证明了形式化方法的工程化潜力,低成本、高精度的AI推理将成为软件安全的新防线。

阿里云 OPC 一人公司创业装备库

原文链接:Hacker News

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:80aj » Mistral AI 发布 Leanstral 1.5:6B 参数模型刷新数学验证 SOTA,可发现深层代码漏洞
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐