被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

发布于2017年的Transformer论文——「Attentionisallyouneed」被引量已经超过17万，成为这轮AI技术革命的标志性论文。

来自JeffDean的演讲幻灯片

同时，也有一些论文的光芒被它掩盖，比如发布于2015年的「End-To-EndMemoryNetworks」。

论文一作、Meta研究科学家SainbayarSukhbaatar在最近的一则推文中说道「回顾过去，这篇论文包含了当前大型语言模型的许多要素。我们的模型是首个完全用注意力机制替代RNN的语言模型；它引入了带键值投影的点积软注意力机制，堆叠了多层注意力，使模型能关注输入的不同部分；它还引入位置嵌入来解决注意力机制中的顺序不变性问题……」

虽然这篇论文比《Attentionisallyouneed》还早两年，但它并没有受到应有的关注，被引量只有3000多。

作者提到，这篇论文是对FacebookAI研究院2014年的一篇论文——「MemoryNetworks」的改进。「MemoryNetworks」引入了多层堆叠的硬注意力机制（hardattention）——与Bahdanau等人在单层上引入软注意力是同期提出的。

在去年的一个帖子中，AI大牛AndrejKarpathy曾发帖感叹，Bahdanau等人在单层上引入软注意力的那项工作——「NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate」才是真正引入注意力机制的论文（最近拿到了ICLR2025时间检验奖的亚军），但「Attentionisallyouneed」所受到的关注却是它的100多倍。不过，他也承认，「Attentionisallyouneed」这篇论文有其独特性。

回到文章开头提到的「End-to-EndMemoryNetworks」，它其实是将「MemoryNetworks」和「NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate」的想法结合到了一起，并展示了多层软注意力能够产生复杂的推理能力——这是当今AI架构最重要的方面之一。

除了核心创新，一作SainbayarSukhbaatar还分享了这篇论文诞生背后的故事和他们目前正在推进的新工作。

一篇被Transformer光芒掩盖的论文

SainbayarSukhbaatar回忆说，他们的「End-to-EndMemoryNetworks」研究始于2014年春天。当时，他博士二年级，还在FAIR实习。他的导师RobFergus敦促他进行关于记忆的研究。不过，那会儿的他还不理解记忆意味着什么，因为那是一个由循环网络和卷积网络主导的世界，记忆并不像今天那样是一个重要的流行词。

不过，他的研究并不需要从头开始。因为当时，FacebookAI研究院的JasonWeston等人已经做出了「MemoryNetworks」。此外，他们还发布了一套名为bAbI的任务，这些任务让循环模型惨败。因为这些任务需要以无序的方式查找多个事实，而这是RNN的致命弱点。

与「记忆」有关的这个项目最初吸引了很多人的关注，但事情进展并不顺利。

最终，他们开始着手于记忆网络的进一步研究，目标是让它学会关注何处，而不需要给定的标签。他们决定使用强化学习训练来教会记忆网络关注何处。

时间快进到2014-2015年冬天，他们当时已经实现了强化学习代码，并准备在语言模型任务上与基准进行比较。一个明显的选择是「NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate」中使用的软注意力机制——但SainbayarSukhbaatar等人在研究中将其应用于多层结构中，这在之前是没有人做过的。所以他们将其作为基线实现，但做了一些改变，比如使用点积而不是小型多层感知器来计算注意力。令人惊喜的是，采用这种软注意力的记忆网络效果出奇地好，他们立即意识到这就是正确的方向。

在此之后，事情开始快速发展。在ArthurSzlam（另一位作者）的坚持下，团队开始使用bAbI任务作为基准。他们开发了几种新技术，如为键和值使用不同的投影等。他们还需要解决注意力的顺序不变性问题，所以他们添加了时间嵌入（现在称为位置嵌入）。

Jason建议在这些时间值中添加随机噪声以减少过拟合。最后，他们决定做一个当时不流行的语言建模任务。令人惊讶的是，他们仅使用注意力而没有任何时间recurrence就击败了LSTM（在论文中，他们使用「recurrence」一词来描述重复的层，即像通用transformer那样共享权重）。

他们在NeurIPS提交的最后一天写了大部分论文。有趣的是，它最初被称为「弱监督记忆网络」，因为它需要更少的监督。

无论如何，那个时期是新架构的黄金时代，出现了NeuralGPU、StackRNN和NeuralTuringMachine等新论文。

回顾10年后的今天和当前大型语言模型的状态，SainbayarSukhbaatar认为他们在论文中正确预见了几点。他们的模型是第一个不依赖recurrence的基于注意力的语言模型。他们成功地堆叠了多层注意力，使模型能够在输出下一个token之前关注上下文的不同部分。他们还使用了位置嵌入，甚至是相对位置嵌入，这现在已成为大型语言模型的标准做法。

虽然这篇论文没有像「Attentionisallyouneed」一样引起轰动，但也起到了一定作用。有人表示自己多次读过这篇论文，试图理解为什么某种神经架构有效。

SainbayarSukhbaatar承认，Transformer确实做出了重要的改进，比如使用前一层的隐藏状态作为下一层的记忆。还有前馈层、多头注意力等等。

他认为，即使已经过去十年，架构改进的工作仍有很多要做。所以，前段时间，他们发布了一篇题为「Multi-TokenAttention」（MTA）的新论文。

MTA在多个查询、键和头上调节注意力，在许多指标上都优于标准软注意力。特别是，它能够更好地解决长上下文问题，例如「大海捞针」类任务。有趣的是，2015年「记忆网络」论文的结论中就已经提到这一点作为未来的工作：「平滑查找可能不会很好地扩展到需要更大记忆的情况」，这恰恰是该领域今天仍在研究的问题。

如果你对他们的论文感兴趣，欢迎去阅读论文原文（参见《Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer》）。

参考链接：https://x.com/tesatory/status/1911150652556026328