Deep-Reinforce 发布了全新开源 AI 编程模型家族 Ornith-1.0,涵盖从适合边缘设备部署的 9B Dense 到 397B MoE 等多种规格。该模型基于 Gemma 4 和 Qwen 3.5 构建,核心创新在于引入了“自支架”训练框架。不同于传统依赖人工设计测试用具的强化学习,Ornith-1.0 能够同时学习生成解决方案代码以及指导代码生成的测试支架,通过联合优化搜索轨迹获得更高质量的输出。在权威基准测试中,旗舰模型 Ornith-1.0-397B 在 Terminal-Bench 2.1 和 SWE-Bench Verified 上分别取得了 77.5 和 82.4 的成绩,表现优于 Claude Opus 4.7、DeepSeek-V4-Pro 及 MiniMax M3 等强劲竞品。值得注意的是,其 9B 小模型在端侧设备上也能匹敌参数量数倍于它的主流模型。此外,针对自支架训练可能引发的“奖励黑客”风险,团队开发了包含确定性监控和 LLM 评判在内的三层防御机制。
事件分析
💡 核心观点:“自支架”机制通过让模型自主构建测试环境与解题逻辑,实现了AI Agent从被动执行到自主进化的关键跃升。
原文链接:Hacker News






