今日,SILX AI 正式发布了其 Quasar 基础模型系列的首个公开预览版——Quasar-Preview。该模型采用约 18B 总参数的混合专家架构,推理时激活参数仅为 2B,在保持高性能的同时实现了极高的推理效率。其核心亮点是实验性的 500 万(5M)Token 上下文窗口,采用了 Safe NoPE / DrOPE 风格的阶段性长上下文扩展方法,专为未来的基于内存的系统架构而设计。在技术实现上,该模型融合了 Loop Transformer、Quasar 混合注意力机制,并内部集成了 Quasar、Raven 和 GLA 混合层。目前训练数据规模在 1T 至 1.5T Token 之间。官方强调,该版本并非最终形态,采用 MIT 协议开源,旨在供研究人员探索前沿架构,未来还将通过迭代式子网训练、知识蒸馏及更长周期的训练来持续提升性能。
事件分析
💡 核心观点:超长上下文与 MoE 架构的结合,正在重新定义开源大模型的效率与能力边界。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战