免费、绿色、专业的手机游戏中心下载安装平台-游家吧

当前位置: 首页 > 教程攻略 > 华为推出准万亿参数盘古 Ultra MoE 模型 全流程在腾 AI 平台训练

华为推出准万亿参数盘古 Ultra MoE 模型 全流程在腾 AI 平台训练

时间:2025-07-13

华为推出准万亿参数盘古 Ultra MoE 模型 全流程在腾 AI 平台训练

,华为发布了全新AI模型盘古UltraMoE,其参数量达到了。这款接近万亿参数的MoE模型全部采用华为的腾AI平台进行训练,这是华为在超大规模模型训练领域的重要突破。

盘古UltraMoE的成功与团队自主研发的一系列创新技术密不可分。其中,深度缩放夹层归一化(DSSN)是其显著的突破。这种架构通过在每个子层之后添加额外层归一化,并结合深度缩放的初始化方法,有效解决了超大规模模型训练期间的梯度异常及范数波动问题,确保了长期稳定性。此外,TinyInit的小初始法采用了标准差为((d_L))的标准策略,进一步提升了模型的训练效果。

华为团队首次公开展示他们在腾 CloudMatrix 超节点上实现的大稀疏比模块化注意力 (MoE) 强化学习框架的核心技术。这项创新突破彻底改变了后训练的模式,让强化学习得以在超大规模模型中实际应用迈出了关键一步。

根据华为团队在初公布的一系列加速技术,他们仅用了一个月的时间成功进行了新一轮的技术迭代和优化。这次升级涵盖了多个关键领域:一方面,针对腾平台硬件的自适应流水线策略进行调整,旨在改变算子执行顺序,减少Host-bound流量,从而提高EP通信掩盖效率;另一方面,自主开发了自适应管理内存的优化策略,通过数据重新排列来实现DP间注意力负载均衡;此外,还对腾平台上的算子进行了优化。这些改进措施的应用,使万卡集群的预训练MFU(混合精度计算利用率)从原来的显著提升到了,展现了华为在技术和工程方面的强大能力。

以上就是华为推出准万亿参数盘古 Ultra MoE 模型 全流程在腾 AI 平台训练的详细内容,更多请关注其它相关文章!

精品推荐

相关文章

最新资讯

热门文章

更多