华为推出准万亿参数盘古 Ultra MoE 模型全流程在腾 AI 平台训练

时间：2025-07-13

华为推出准万亿参数盘古 Ultra MoE 模型全流程在腾 AI 平台训练

，华为发布了全新AI模型盘古UltraMoE，其参数量达到了。这款接近万亿参数的MoE模型全部采用华为的腾AI平台进行训练，这是华为在超大规模模型训练领域的重要突破。

盘古UltraMoE的成功与团队自主研发的一系列创新技术密不可分。其中，深度缩放夹层归一化（DSSN）是其显著的突破。这种架构通过在每个子层之后添加额外层归一化，并结合深度缩放的初始化方法，有效解决了超大规模模型训练期间的梯度异常及范数波动问题，确保了长期稳定性。此外，TinyInit的小初始法采用了标准差为((d_L))的标准策略，进一步提升了模型的训练效果。

华为团队首次公开展示他们在腾 CloudMatrix 超节点上实现的大稀疏比模块化注意力 (MoE) 强化学习框架的核心技术。这项创新突破彻底改变了后训练的模式，让强化学习得以在超大规模模型中实际应用迈出了关键一步。

根据华为团队在初公布的一系列加速技术，他们仅用了一个月的时间成功进行了新一轮的技术迭代和优化。这次升级涵盖了多个关键领域：一方面，针对腾平台硬件的自适应流水线策略进行调整，旨在改变算子执行顺序，减少Host-bound流量，从而提高EP通信掩盖效率；另一方面，自主开发了自适应管理内存的优化策略，通过数据重新排列来实现DP间注意力负载均衡；此外，还对腾平台上的算子进行了优化。这些改进措施的应用，使万卡集群的预训练MFU（混合精度计算利用率）从原来的显著提升到了，展现了华为在技术和工程方面的强大能力。

以上就是华为推出准万亿参数盘古 Ultra MoE 模型全流程在腾 AI 平台训练的详细内容，更多请关注其它相关文章！