SwiGLU 在大模型低精度训练中因输出近似二次增长导致异常值逐层放大,引发 Loss Spike。蚂蚁百灵(Ling)团队提出的 PowLU,在正半轴用幂函数替代指数衰减因子,使增长曲线更平缓。Scaling Law 实验(26M–368M 参数)显示 PowLU 与 SwiGLU 拟合曲线几乎重合;7.9B(600B token)和 124B(800B token)模型在 17 个基准上 PowLU 均优于或持平 SwiGLU。FP8 训练下 PowLU Loss 稳定在约 1.32,有效压缩数值动态范围,减少极端异常值。