(也许是)全网最全的神经网络优化器optimizer总结 前一段时间,我想搞清楚优化器的发展脉络,试图了解从梯度下降到现在最常用的AdamW的发展。但搜索了很多资料,都没找到一个全面的总结。所以我决定自己整理一份,希望能帮助到大家。 optimizer负责在训练 ...