这篇技术博客详细对比了在AMD MI355X与Nvidia Blackwell平台上运行GLM5.2大模型的性能与成本。面对推理需求激增及Blackwell显卡供应紧缺、价格高昂的挑战,Wafer展示了AMD作为高性价比替代方案的可行性。测试数据显示,MI355X在成本约为B300的36%(即约2.75倍便宜)的情况下,实现了单节点2626 tok/s的聚合吞吐量和单流213 tok/s的解码速度,达到了Nvidia B200约80%的性能水平,其性价比优势显著。技术实现上,团队利用AMD Quark将模型量化为MXFP4格式,并选择了SGLang作为推理框架。针对ROCm生态的不完善,工程师通过修复MTP头的量化映射错误、添加ROCm守卫以启用推测解码,以及手动微调FP4 MoE内核,克服了预填充阶段的性能瓶颈。这一成果表明,通过针对性的工程优化,AMD平台完全有能力支撑前沿模型的推理需求,有效缓解了对Nvidia硬件的单一依赖。
事件分析
💡 核心观点:通过工程优化突破软件生态瓶颈,AMD正以极致性价比有效瓦解Nvidia在AI推理领域的垄断地位。
原文链接:Hacker News






