通过优化 Transformer 内核实现 BERT 最快、最高效的训练

我们介绍了新技术,通过内核优化来加速单个 GPU 的性能。这些优化不仅为扩展大型模型奠定了坚实的基础,而且将高度调整的和中等规模的模型(如 BERT)的单 GPU 性能提高了 30% 以上,达到了惊人的每台 V100 GPU 66 teraflops 的性能,即硬件峰值的 52%。使用优化的 Transformer 内核作为构建块,DeepSpeed 实现了 BERT 训练最快纪录:在 1024 个 NVIDIA V100 GPU 上只需 44 分钟,而同类 GPU 上发布的最佳结果为 67 分钟。

更新: