通过 DeepSpeed 稀疏注意力实现 10 倍更长的序列和 6 倍更快的执行
DeepSpeed 提供稀疏注意力内核,这是一项支持模型输入长序列的关键技术,无论输入是文本、图像还是声音。与经典的密集 Transformers 相比,它能够处理数量级更长的输入序列,并以可比的精度实现高达 6 倍的执行速度。它还以 1.5-3 倍的执行速度超越了最先进的稀疏实现。此外,我们的稀疏内核支持灵活的稀疏格式的高效执行,并使用户能够创新其自定义稀疏结构。
- 简要概述,请参阅我们的新闻稿。
- 详细技术深入探讨,请参阅我们的博客文章。
- 稀疏注意力使用教程,请参阅我们的稀疏注意力教程。
- 我们稀疏注意力内核的源代码可在DeepSpeed 仓库中找到,使用稀疏注意力的 BERT 预训练代码可在DeepSpeedExamples 仓库中找到。