公众号:蚂蚁百灵(Ling)
Ling Team 提出 UFP4:FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1
AI 摘要
Ling Team 在 arxiv 发表论文,重新思考 FP4 预训练中的格式选择。研究发现,主流 E2M1 格式存在先天 Shrinkage Bias,导致数值量化时左右 rounding bin 不对称,该 bias 在训练中累积拖慢收敛。相比之下,E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform(RHT)后,更高的 bucket 利用率能转化为实际量化质量收益,收敛表现优于 E2M1。团队提出 UFP4 方案:在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT,并将 SR 用于 dy 量化。研究认为,细粒度量化与 RHT 引入后,FP4 训练已转向“局部分辨率主导”,uniform 4-bit 格式的价值应被重新评估。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com