Claude Code 合租
AI编程 · 架构思考 · 技术人生
DigitalOcean 开发者云

国产算力里程碑:华为昇腾910C集群成功跑通DeepSeek 1.6万亿参数模型全参数训练

GLM Claude Code 国产平替

由深圳河套学院、哈工大(深圳)、深圳市大数据研究院与华为相关团队组成的联合攻关团队,依托深智城 AI 算力平台,宣布在国产 AI 算力平台上成功跑通 1.6 万亿参数大模型 DeepSeek-V4-Pro 的全参数后训练(Post-training)。这是全球第三方机构首次在国产算力平台上完成如此大规模模型的全参数后训练任务。相较于预训练,后训练阶段虽无需处理海量初始数据,但对于 1.6 万亿参数的 MoE(混合专家)架构模型而言,其对底层硬件的显存容量、多卡间通信带宽(特别是 MoE 路由触发的全对全通信)以及大规模集群稳定性要求极高。联合团队利用超千张华为昇腾 910C 芯片组成的算力集群,通过优化分布式承载与负载均衡策略,成功克服了通信瓶颈。在长达 1500 多步的训练过程中,系统实现了零中断,模型算力利用率(MFU)超过 30%,关键算子效率提升 14%,各项指标均达到工业级运行标准。业内普遍认为,此次实验不仅验证了华为昇腾 910C 集群在承载超大规模模型训练时的技术可行性,更标志着国产算力生态正加速从以往仅支持推理或小参数微调,向支撑超大参数模型全参数训练的技术闭环过渡。

事件分析

本次技术突破的核心看点在于攻克了 MoE 架构模型在国产芯片上的全对全通信瓶颈。MoE 架构虽然能降低推理成本,但在训练时对网络拓扑和带宽极度敏感,昇腾 910C 集群在此场景下实现 30% 以上的 MFU 和 1500 步无中断,证明了其配套软件栈(如 CANN)已具备较高的成熟度和稳定性。从产业影响来看,此举打破了此前国产算力仅能承担推理任务的刻板印象,证明了中国本土算力集群已具备对万亿参数级模型进行深度训练(SFT 和 RL)的能力。这不仅为受外部供应限制的 AI 研发提供了自主可控的底层保障,也意味着 DeepSeek 与华为的组合已构建出可对标国际主流(如 NVIDIA + Hugging Face)的软硬一体生态雏形。

💡 核心观点:华为昇腾910C成功支撑DeepSeek万亿模型全参数训练,标志着国产AI算力软硬件栈实现从“推理可用”到“训练能打”的关键跨越。

阿里云 全线产品特惠

原文链接:Linux.do

Claude Code 合租
赞(0)
未经允许不得转载:Toy's Tech Notes » 国产算力里程碑:华为昇腾910C集群成功跑通DeepSeek 1.6万亿参数模型全参数训练
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐