Symetry Models - 搜索 News

7 小时

正交化之外是什么？微软等提出ARO优化器：训练提速1/3，揭示矩阵 ...

论文提出将旋转最速下降提升到设计优化器的新原则，从而可以考虑更一般的旋转 R，和更广泛的基座优化器 f。能不能让这两个部分有机地联动起来，去优化一个具体的训练效率指标，例如模型训练损失的下降速度？论文提出：给定一般的基座优化器 f，我们可以近似地求解旋转 R，使旋转更新下的训练损失下降速率得以提升。于是，我们推导出 ARO 的更新规则：它的直觉很简单：ARO ...

头部财经

微软等提出ARO优化器：训练提速1/3，揭示矩阵优化新「蓝海」

如果你在过去一年关注过大模型训练的技术，大概率听过 Muon 这个名字 —— 这个在月之暗面 K2 模型的相关讨论中走红的优化器，被视为是可能挑战 Adam 的新秀。它的思路很直接：对动量矩阵进行正交化，让各个奇异方向上的更新速率一致，提升训练效率。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

正交化之外是什么？微软等提出ARO优化器：训练提速1/3，揭示矩阵 ...

微软等提出ARO优化器：训练提速1/3，揭示矩阵优化新「蓝海」

今日热点