5月30日,华为宣告推出参数规划高达7180亿的全新模型盘古Ultra MoE,这是一个全流程在昇腾AI核算平台上练习的准万亿MoE模型。据悉,盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)安稳架构和TinyInit小初始化的办法,在昇腾平台上完成了超越18TB数据的长时间安稳练习。在练习办法上,华为团队初次披露在昇腾CloudMatrix 384超节点上打通大稀少比MoE强化学习(RL)后练习结构的关键技术,使RL后练习进入超节点集群年代。
5月30日,华为宣告推出参数规划高达7180亿的全新模型盘古Ultra MoE,这是一个全流程在昇腾AI核算平台上练习的准万亿MoE模型。据悉,盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)安稳架构和TinyInit小初始化的办法,在昇腾平台上完成了超越18TB数据的长时间安稳练习。在练习办法上,华为团队初次披露在昇腾CloudMatrix 384超节点上打通大稀少比MoE强化学习(RL)后练习结构的关键技术,使RL后练习进入超节点集群年代。