Thinking Machines Lab:官方博客(RSS)
45
训练大型神经网络时,张量过大或过小会引发数值问题。标准化为黄金标准,但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形,以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器,将权重约束至 Stiefel 流形(单位条件数矩阵),并定义可组合的模块化流形(Modular Manifold),旨在简化大型网络的缩放与训练。本文为研究方向介绍,并展望未来工作。
训练大型神经网络时,张量过大或过小会引发数值问题。标准化为黄金标准,但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形,以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器,将权重约束至 Stiefel 流形(单位条件数矩阵),并定义可组合的模块化流形(Modular Manifold),旨在简化大型网络的缩放与训练。本文为研究方向介绍,并展望未来工作。