通过优化的Transformer内核实现最快、最有效的BERT训练
我们引入了一项新技术,通过内核优化来加速单GPU性能。这些优化不仅为扩展大型模型奠定了坚实基础,而且还将BERT等经过高度调优的适中规模模型的单GPU性能提高了30%以上,每块V100 GPU达到了惊人的66太浮点运算(teraflops),这是硬件峰值的52%。使用优化的Transformer内核作为构建块,DeepSpeed创造了最快的BERT训练记录:在1024块NVIDIA V100 GPU上仅需44分钟,而之前公布的最佳结果是在相同数量和代次的GPU上耗时67分钟。
- 简要概述,请参阅我们的新闻稿。
- 详细技术深入探讨,请参阅我们的博客文章。
- 如何复现我们结果的教程,请参阅我们的BERT预训练教程。
- 我们的Transformer内核源代码可在DeepSpeed仓库中找到,BERT预训练代码可在DeepSpeedExamples仓库中找到。