发布于

变换器中什么最重要?

作者

《Transformer中的关键因素》是一篇有趣的论文,发现实际上可以在像Llama这样的LLM中删除一半的注意力层,而不会明显降低建模性能。

Image

这个概念相当简单。作者删除注意力层、MLP层或整个变换器块:

  • 删除整个变换器块会导致性能显著下降。

  • 删除MLP层会导致性能显著下降。

  • 删除注意力层几乎不会导致性能下降!

在Llama 2 70B中,即使删除了一半的注意力层(这会导致速度提高48%),模型基准测试也只会下降2.4%。作者最近还在论文中添加了Llama 3的结果,结果也相似。

注意力层的删除不是随机的,而是基于余弦相似性评分:如果输入和输出非常相似,则该层是冗余的,可以删除。

这是一个非常有趣的结果,可能可以与各种模型压缩技术(如剪枝和量化)结合使用,以产生复合效果。

此外,层的删除是以单次方式进行的(而不是迭代方式),删除后无需(重新)训练。但是,删除后重新训练模型可能会恢复一些丢失的性能。

总的来说,这是一个非常简单但非常有趣的研究。看起来在更大的架构中可能存在很多计算冗余。

然而,这项研究的一个大缺点是,它主要关注的是学术基准(HellaSwag、MMLU等)。不清楚模型在衡量对话性能的基准测试中表现如何。

请注意,中文版本是由 AI 辅助翻译的,因此可能存在细微错误。

作者

Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立,他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务,我们帮助企业提升水平,走向全球舞台。我们的承诺:更快。更好。更可靠。在大多数情况下:也更便宜。

无论您需要IT服务、数字咨询、现成软件解决方案,还是想向我们发送招标要求(RFPs),都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。

ABNAsia.org

© ABN ASIA