英伟达实验室正式发布了开源项目cuTile Rust,这是一个旨在解决GPU内核编程中安全性问题的实验性工具。长期以来,在Rust中进行GPU开发往往需要依赖unsafe代码或使用C++编写内核,容易引发数据竞争等内存错误。cuTile Rust通过引入“瓦片”高级编程模型,成功将Rust的所有权机制扩展到了GPU端。其核心原理允许开发者在主机端将可变输出张量分割为不相交的片段,每个内核获得独占的可变引用,从而在编译时保证数据竞争自由。技术评测显示,在B200 GPU上,经过优化的安全GEMM内核性能达到了手写底层Tile IR变体的99.7%,约为GPU dense f16峰值的92%,证明了安全性几乎是“零成本”的。该项目不仅支持通用矩阵乘法(GEMM),还与Hugging Face合作展示了基于此技术的Grout推理引擎成果。在Qwen3-4B模型解码测试中,该方案在RTX 5090上实现了171 tokens/s的速度;在Qwen3-32B模型上,B200达到了82 tokens/s,展现了在内存受限推理任务中的强劲性能。目前,cuTile Rust已发布0.2.0版本,支持CUDA 13.3及sm_80+架构,并新增了对FP4等低精度的支持,开发者可通过crates.io直接集成。
事件分析
💡 核心观点:cuTile Rust打破了高性能与内存安全不可兼得的魔咒,标志着Rust正式具备了在生产级AI高性能计算中替代C++的潜力。
原文链接:Hacker News







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航