AI-Optimized Kernels Beat NVIDIA cuBLAS with Reinforcement Learning
CUDA-L2是一个创新系统,结合大语言模型(LLM)和强化学习(RL)自动优化半精度矩阵乘法(HGEMM)CUDA内核。在A100 GPU上测试的1000个配置中,它显著超越了torch.matmul以及NVIDIA的专有库cuBLAS、...
CUDA-L2是一个创新系统,结合大语言模型(LLM)和强化学习(RL)自动优化半精度矩阵乘法(HGEMM)CUDA内核。在A100 GPU上测试的1000个配置中,它显著超越了torch.matmul以及NVIDIA的专有库cuBLAS、...