云聚 AI Token Plan 满 199 减 35 元
port:80 AI Junkie
AI 重度玩家的工程笔记本
DigitalOcean 开发者云

实测:AMD MI355X运行GLM5.2,成本仅为Blackwell一半,性能达80%

云聚 AI Token Plan 满 199 减 35 元

这篇技术博客详细对比了在AMD MI355X与Nvidia Blackwell平台上运行GLM5.2大模型的性能与成本。面对推理需求激增及Blackwell显卡供应紧缺、价格高昂的挑战,Wafer展示了AMD作为高性价比替代方案的可行性。测试数据显示,MI355X在成本约为B300的36%(即约2.75倍便宜)的情况下,实现了单节点2626 tok/s的聚合吞吐量和单流213 tok/s的解码速度,达到了Nvidia B200约80%的性能水平,其性价比优势显著。技术实现上,团队利用AMD Quark将模型量化为MXFP4格式,并选择了SGLang作为推理框架。针对ROCm生态的不完善,工程师通过修复MTP头的量化映射错误、添加ROCm守卫以启用推测解码,以及手动微调FP4 MoE内核,克服了预填充阶段的性能瓶颈。这一成果表明,通过针对性的工程优化,AMD平台完全有能力支撑前沿模型的推理需求,有效缓解了对Nvidia硬件的单一依赖。

事件分析

本案例的核心看点在于验证了软件生态优化对于释放AMD硬件潜力的关键作用。虽然AMD硬件具备性价比优势,但ROCm软件栈长期缺乏对新模型的“Day-0”支持。此次通过手工修复内核和配置,成功在FP4 MoE架构上实现了接近Blackwell的吞吐量,打破了“AMD无法高效跑新模型”的刻板印象。产业层面,随着AI Agent和自动化优化工具的进步,CUDA的护城河正面临实质性挑战。若能在不牺牲过多性能的前提下大幅降低推理成本,AMD有望在商业化推理服务市场中占据重要份额,推动AI算力市场向多元化发展。

💡 核心观点:通过工程优化突破软件生态瓶颈,AMD正以极致性价比有效瓦解Nvidia在AI推理领域的垄断地位。

阿里云 OPC 一人公司创业装备库

原文链接:Hacker News

阿里云函数计算 一键部署 AI 大模型
赞(0)
未经允许不得转载:80aj » 实测:AMD MI355X运行GLM5.2,成本仅为Blackwell一半,性能达80%
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐