通过 DeepSpeed 稀疏注意力实现 10 倍更长的序列和 6 倍更快的执行速度

DeepSpeed 提供稀疏注意力内核,这是一种支持长序列模型输入的关键技术,无论文本、图像还是声音。与传统的密集 Transformer 相比,它可以处理长一个数量级的输入序列,并以可比的精度实现高达 6 倍的执行速度。它也优于最先进的稀疏实现,执行速度快 1.5-3 倍。此外,我们的稀疏内核支持对灵活稀疏格式的有效执行,并使用户能够对自定义稀疏结构进行创新。

更新: