论文提出将旋转最速下降提升到设计优化器的新原则, 从而可以考虑更一般的旋转 R,和更广泛的基座优化器 f。 能不能让这两个部分有机地联动起来,去优化一个具体的训练效率指标,例如模型训练损失的下降速度? 论文提出:给定一般的基座优化器 f,我们可以近似地求解旋转 R,使旋转更新下的训练损失下降速率得以提升。于是,我们推导出 ARO 的更新规则: 它的直觉很简单:ARO ...
如果你在过去一年关注过大模型训练的技术,大概率听过 Muon 这个名字 —— 这个在月之暗面 K2 模型的相关讨论中走红的优化器,被视为是可能挑战 Adam 的新秀。它的思路很直接:对动量矩阵进行正交化,让各个奇异方向上的更新速率一致,提升训练效率。