FlashAttention 联合作者 Tri Dao 发布了一种名为 Gram Newton-Schulz 的全新算法,旨在显著降低大语言模型训练的计算成本。该研究针对 Muon 优化器在 Kimi、GLM 等万亿参数模型训练中遇到的计算瓶颈进行了深度优化。Muon 虽通过正交化提升了优化质量,但其核心的 Newton-Schulz 迭代过程涉及大量昂贵的矩阵乘法。新方法通过迭代处理小型的对称 Gram 矩阵,大幅减少了浮点运算量,并针对 Hopper 和 Blackwell GPU 架构开发了专门的对称矩阵乘法内核。同时,团队引入“重启”策略解决了半精度运算中的数值不稳定性问题。实验结果显示,该技术在万亿参数 MoE 模型上能将优化器步长缩短 40% 至 50%,且不影响模型验证困惑度。
事件分析
💡 核心观点:算法与底层硬件的深度协同优化正成为大模型降本增效的突破口,Muon 优化器的性能瓶颈已被打破。
原文链接:Hacker News







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战