云聚 AI Token Plan 满 199 减 35 元
AI编程 · 架构思考 · 技术人生
DigitalOcean 开发者云

大模型训练提速 50%:Tri Dao 推出 Gram Newton-Schulz 优化算法

云聚 AI Token Plan 满 199 减 35 元

FlashAttention 联合作者 Tri Dao 发布了一种名为 Gram Newton-Schulz 的全新算法,旨在显著降低大语言模型训练的计算成本。该研究针对 Muon 优化器在 Kimi、GLM 等万亿参数模型训练中遇到的计算瓶颈进行了深度优化。Muon 虽通过正交化提升了优化质量,但其核心的 Newton-Schulz 迭代过程涉及大量昂贵的矩阵乘法。新方法通过迭代处理小型的对称 Gram 矩阵,大幅减少了浮点运算量,并针对 Hopper 和 Blackwell GPU 架构开发了专门的对称矩阵乘法内核。同时,团队引入“重启”策略解决了半精度运算中的数值不稳定性问题。实验结果显示,该技术在万亿参数 MoE 模型上能将优化器步长缩短 40% 至 50%,且不影响模型验证困惑度。

事件分析

随着大模型参数规模向万亿级迈进,优化器的计算开销已不容忽视,Muon 凭借卓越的收敛性逐渐成为 Kimi 等前沿模型的选择,但其高昂的计算成本限制了推广。Tri Dao 的这项工作通过数学变换利用矩阵对称性,并定制底层 GPU 内核,在不牺牲精度的前提下实现了显著的“免费午餐”式性能提升。这标志着大模型训练的效率优化正从通用的算力堆叠转向算法与硬件架构的深度协同设计,特别是针对 MoE 架构的高 rectangular 矩阵特性优化,有望成为未来降低大模型训练成本的关键技术路径。

💡 核心观点:算法与底层硬件的深度协同优化正成为大模型降本增效的突破口,Muon 优化器的性能瓶颈已被打破。

阿里云 OPC 一人公司创业装备库

原文链接:Hacker News

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:Toy's Tech Notes » 大模型训练提速 50%:Tri Dao 推出 Gram Newton-Schulz 优化算法
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐