通过优化的Transformer内核实现最快、最有效的BERT训练

我们引入了一项新技术,通过内核优化来加速单GPU性能。这些优化不仅为扩展大型模型奠定了坚实基础,而且还将BERT等经过高度调优的适中规模模型的单GPU性能提高了30%以上,每块V100 GPU达到了惊人的66太浮点运算(teraflops),这是硬件峰值的52%。使用优化的Transformer内核作为构建块,DeepSpeed创造了最快的BERT训练记录:在1024块NVIDIA V100 GPU上仅需44分钟,而之前公布的最佳结果是在相同数量和代次的GPU上耗时67分钟。

更新日期: