Transformer 2 - 搜索 News

7 天

Transformer全新里程碑，诞生6年，开山之作被引近8万，没夺下NeurIPS ...

这篇论文来自Yoshua Bengio的实验室，而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。或许很多人都没有听说过这篇论文，但它是NLP中最伟大的里程碑之一，已经被引用了29K次（相比之下，Transformer为77K）。

腾讯网

再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。但随着模型规模的扩展和需要处理的序列不断变长，Transformer 的局限性也逐渐凸显。一个很明显的缺陷是：Transformer 模型中自注意力机制的计算量会随着上下文长度的 ...

腾讯网

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还 ...

都 2024 年，还有人不了解 Transformer 工作原理吗？快来试一试这个交互式工具吧。 2017 年，谷歌在论文《Attention is all you need》中提出了 Transformer，成为了深度学习领域的重大突破。该论文的引用数已经将近 13 万，后来的 GPT 家族所有模型也都是基于 Transformer 架构 ...

36氪

DeepMind携Mamba华人作者推Transformer革命之作，性能暴涨媲美Llama 2，推理 ...

线性RNN赢了？近日，谷歌DeepMind一口气推出两大新架构，在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度，并且成功扩展到了14B。 Transformer又又又被挑战了！这次的挑战者来自大名鼎鼎的谷歌DeepMind，并且一口气推出了两种新架构 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果