# 蚂蚁百灵团队提出 PowLU 激活函数，解决低精度训练中 SwiGLU 的异常值问题

- 来源：公众号：蚂蚁百灵（Ling）
- 作者：百灵大模型
- 发布时间：2026-05-29 09:39
- AIHOT 分数：52
- AIHOT 链接：https://aihot.virxact.com/items/cmq2l9lfs00acsl6nlqun5m04
- 原文链接：https://mp.weixin.qq.com/s/ykMsxnQipcUgB4kN9geHHQ

## AI 摘要

SwiGLU 在大模型低精度训练中因输出近似二次增长导致异常值逐层放大，引发 Loss Spike。蚂蚁百灵（Ling）团队提出的 PowLU，在正半轴用幂函数替代指数衰减因子，使增长曲线更平缓。Scaling Law 实验（26M–368M 参数）显示 PowLU 与 SwiGLU 拟合曲线几乎重合；7.9B（600B token）和 124B（800B token）模型在 17 个基准上 PowLU 均优于或持平 SwiGLU。FP8 训练下 PowLU Loss 稳定在约 1.32，有效压缩数值动态范围，减少极端异常值。

## 正文

公众号正文需在微信内阅读，站内仅提供摘要。
