通过优化的Transformer内核实现最快、最有效的BERT训练

2020年5月18日

我们引入了一项新技术，通过内核优化来加速单GPU性能。这些优化不仅为扩展大型模型奠定了坚实基础，而且还将BERT等经过高度调优的适中规模模型的单GPU性能提高了30%以上，每块V100 GPU达到了惊人的66太浮点运算（teraflops），这是硬件峰值的52%。使用优化的Transformer内核作为构建块，DeepSpeed创造了最快的BERT训练记录：在1024块NVIDIA V100 GPU上仅需44分钟，而之前公布的最佳结果是在相同数量和代次的GPU上耗时67分钟。

简要概述，请参阅我们的新闻稿。
详细技术深入探讨，请参阅我们的博客文章。
如何复现我们结果的教程，请参阅我们的BERT预训练教程。
我们的Transformer内核源代码可在DeepSpeed仓库中找到，BERT预训练代码可在DeepSpeedExamples仓库中找到。

Twitter Facebook LinkedIn