尺寸可忽略,影响却显著:论大语言模型中的缩放向量 · AI HOT