这里想聊一聊 Attention Residual 背后的一些设计思考,也把论文里受限于篇幅没有展开的一些工程分析讲得更清楚一点。 熟悉我的朋友可能知道,我工作中一个很核心的内容就是模型架构设计和性能优化。所以我自己一直有一个认知:一个模型架构最后设计成什么 ...