渐进式层丢弃
我们介绍了一种名为渐进式层丢弃 (PLD) 的新技术,通过高效且健壮的压缩训练来加速基于 Transformer 的网络的预训练。Transformer 网络的预训练步骤通常会面临难以承受的总体计算成本。我们分析了 Transformer 网络的训练动态和稳定性,并提出了 PLD 来稀疏地更新 Transformer 模块,遵循渐进式丢弃计划,该计划随着训练在时间和模型深度维度上发展而平滑地提高每个小批次的层丢弃率。PLD 能够使预训练快 2.5 倍,在后续任务中获得类似的准确度,并且能够使训练快 24%,在训练相同数量的样本时,不会以过多的硬件资源为代价。
- 有关技术深入分析的详细信息,请参见我们的技术报告。
- 有关如何使用 PLD 的更多信息,请参见我们的渐进式层丢弃教程。
- PLD 的源代码现已在DeepSpeed 仓库中提供。