近日,vLLM 项目在版本 0.19.0 中暴露出一个影响多卡推理稳定性的技术缺陷,涉及混合专家模型的并行计算逻辑。该问题在使用 6 张 GPU 部署 Qwen 系列 MoE 模型时被触发。当用户配置张量并行度为 1 且数据并行度为 6 的环境下,模型加载至 SharedFusedMoE 层时会抛出 AssertionError。错误源于代码中的一行断言:`assert intermediate_size % self.tp_size == 0`。在正常逻辑下,张量并行度为 1,任何维度的中间变量均应满足整除条件。然而,vLLM V1 引擎在重构多进程执行器时出现了逻辑隔离不彻底的问题。系统在获取 `self.tp_size` 变量时,错误地引用了全局进程总数(即 6 张 GPU 的 World Size),而非局部配置的张量并行度。由于 Qwen 模型的 MoE 专家网络维度(如 3584)无法被 6 整除,导致本应通过校验的模型加载流程中断。这一 Bug 揭示了框架在处理混合并行策略时对全局与局部变量管理的潜在风险,对大规模 MoE 模型的工程化部署提出了挑战。
事件分析
💡 核心观点:MoE 架构的普及倒逼推理框架优化多并行策略,底层变量管理的精细化程度决定了大规模部署的稳定性。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪