通过 DeepSpeed 稀疏注意力实现 10 倍更长的序列和 6 倍更快的执行速度
DeepSpeed 提供稀疏注意力内核,这是一种支持长序列模型输入的关键技术,无论文本、图像还是声音。与传统的密集 Transformer 相比,它可以处理长一个数量级的输入序列,并以可比的精度实现高达 6 倍的执行速度。它也优于最先进的稀疏实现,执行速度快 1.5-3 倍。此外,我们的稀疏内核支持对灵活稀疏格式的有效执行,并使用户能够对自定义稀疏结构进行创新。
- 简要概述,请参阅我们的 新闻稿。
- 技术深入研究,请参阅我们的 博客文章。
- 有关如何使用稀疏注意力的教程,请参阅我们的 稀疏注意力教程。
- 我们稀疏注意力内核的源代码可以在 DeepSpeed 仓库 中找到,使用稀疏注意力的 BERT 预训练代码可以在 DeepSpeedExamples 仓库 中找到。