这篇论文介绍了一种名为NSA(Native Sparse Attention)的新型注意力机制,旨在提高长距离上下文建模的效率。传统的注意力机制计算量大,而稀疏注意力机制则可以有效减少计算量,但同时也要保证模型性能不下降。作者提出了动态分层稀疏策略,结合粗粒度和细粒度的压缩和选择,既保持了全局上下文意识又保留了局部精度。此外,他们还通过算法设计和硬件优化实现了端到端训练,并在实验中证明了NSA在多个任务上都表现出了优异的效果和高效的计算速度。
图1:NSA架构示意图
本文提出了一个名为“Native Sparse Attention”(NSA)的新颖的稀疏注意力机制框架,用于在Transformer模型中实现高效的计算和训练。该框架包括三个关键组件:压缩、选择和滑动窗口。这些组件使用动态构建的关键值对来代替原始的键值对,以捕获自然稀疏模式中的信息。此外,还介绍了三种映射策略:压缩、选择和滑动窗口,以及它们如何结合在一起产生最终的注意力输出。
与传统的稀疏注意力方法相比,NSA框架的主要优势在于其能够同时优化计算效率和训练需求。传统的稀疏注意力方法主要关注推理阶段的性能提升,但往往忽略了训练阶段的需求。而NSA框架通过引入新的压缩、选择和滑动窗口组件,并设计了相应的硬件优化算法,能够在不降低精度的情况下显著提高计算效率和训练效率。
图2:动态分层稀疏策略
图3:注意力路径设计
本文主要介绍了神经网络结构(NSA)的性能比较实验。该实验包括三个方面的内容:一般基准测试、长上下文基准测试和链式思维推理性能测试,并与全注意力基线和其他稀疏注意力方法进行了比较。
表1:一般基准测试结果
NSA通过硬件友好的系统设计和训练感知的设计,在高效部署和端到端训练方面表现优异,实验性能与全注意力基线相当或更优。
未来可探索自适应稀疏性、动态稀疏性等技术,进一步扩展其在NLP任务中的应用。