通过 DeepSpeed 稀疏注意力实现 10 倍更长的序列和 6 倍更快的执行

DeepSpeed 提供稀疏注意力内核,这是一项支持模型输入长序列的关键技术,无论输入是文本、图像还是声音。与经典的密集 Transformers 相比,它能够处理数量级更长的输入序列,并以可比的精度实现高达 6 倍的执行速度。它还以 1.5-3 倍的执行速度超越了最先进的稀疏实现。此外,我们的稀疏内核支持灵活的稀疏格式的高效执行,并使用户能够创新其自定义稀疏结构。

更新于: