通过优化 Transformer 内核实现 BERT 最快、最高效的训练
我们介绍了新技术,通过内核优化来加速单个 GPU 的性能。这些优化不仅为扩展大型模型奠定了坚实的基础,而且将高度调整的和中等规模的模型(如 BERT)的单 GPU 性能提高了 30% 以上,达到了惊人的每台 V100 GPU 66 teraflops 的性能,即硬件峰值的 52%。使用优化的 Transformer 内核作为构建块,DeepSpeed 实现了 BERT 训练最快纪录:在 1024 个 NVIDIA V100 GPU 上只需 44 分钟,而同类 GPU 上发布的最佳结果为 67 分钟。
- 简要概述,请参阅我们的 新闻稿。
- 技术深入分析,请参阅我们的 博客文章。
- 有关如何复制我们结果的教程,请参阅我们的 BERT 预训练教程。
- 我们 Transformer 内核的源代码可以在 DeepSpeed 仓库 中找到,BERT 预训练代码可以在 DeepSpeedExamples 仓库 中找到。