云聚 AI Token Plan 满 199 减 35 元
port:80 AI Junkie
AI 重度玩家的工程笔记本
DigitalOcean 开发者云

开源新势力Ornith-1.0:自支架AI编程模型性能超越Claude Opus

云聚 AI Token Plan 满 199 减 35 元

Deep-Reinforce 发布了全新开源 AI 编程模型家族 Ornith-1.0,涵盖从适合边缘设备部署的 9B Dense 到 397B MoE 等多种规格。该模型基于 Gemma 4 和 Qwen 3.5 构建,核心创新在于引入了“自支架”训练框架。不同于传统依赖人工设计测试用具的强化学习,Ornith-1.0 能够同时学习生成解决方案代码以及指导代码生成的测试支架,通过联合优化搜索轨迹获得更高质量的输出。在权威基准测试中,旗舰模型 Ornith-1.0-397B 在 Terminal-Bench 2.1 和 SWE-Bench Verified 上分别取得了 77.5 和 82.4 的成绩,表现优于 Claude Opus 4.7、DeepSeek-V4-Pro 及 MiniMax M3 等强劲竞品。值得注意的是,其 9B 小模型在端侧设备上也能匹敌参数量数倍于它的主流模型。此外,针对自支架训练可能引发的“奖励黑客”风险,团队开发了包含确定性监控和 LLM 评判在内的三层防御机制。

事件分析

此次发布的技术亮点在于将 Agent 执行中的“提示词工程”或“测试逻辑”内化为可学习的模型参数,即通过强化学习让模型动态生成针对特定任务的解题工具,而非依赖静态的人类预设代码。这种“自支架”策略显著提升了模型在复杂、长链路编码任务中的自主纠错与规划能力,标志着 AI 编程 Agent 从单纯的代码补全向具备自我进化能力的“元智能体”演进。从产业影响看,Ornith-1.0 在 SWE-Bench 等高难度基准上对 Claude Opus 的超越,进一步验证了开源模型在通过精细数据工程和创新训练范式后,完全有能力在特定垂直领域匹敌甚至超越顶尖闭源模型。

💡 核心观点:“自支架”机制通过让模型自主构建测试环境与解题逻辑,实现了AI Agent从被动执行到自主进化的关键跃升。

阿里云 OPC 一人公司创业装备库

原文链接:Hacker News

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:80aj » 开源新势力Ornith-1.0:自支架AI编程模型性能超越Claude Opus
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐