通过 DeepSpeed 稀疏注意力实现 10 倍更长的序列和 6 倍更快的执行

2020年9月8日

DeepSpeed 提供稀疏注意力内核，这是一项支持模型输入长序列的关键技术，无论输入是文本、图像还是声音。与经典的密集 Transformers 相比，它能够处理数量级更长的输入序列，并以可比的精度实现高达 6 倍的执行速度。它还以 1.5-3 倍的执行速度超越了最先进的稀疏实现。此外，我们的稀疏内核支持灵活的稀疏格式的高效执行，并使用户能够创新其自定义稀疏结构。

简要概述，请参阅我们的新闻稿。
详细技术深入探讨，请参阅我们的博客文章。
稀疏注意力使用教程，请参阅我们的稀疏注意力教程。
我们稀疏注意力内核的源代码可在DeepSpeed 仓库中找到，使用稀疏注意力的 BERT 预训练代码可在DeepSpeedExamples 仓库中找到。

Twitter Facebook 领英