渐进式层丢弃
我们引入了一项名为渐进式层丢弃(PLD)的新技术,旨在通过高效、鲁棒的压缩训练来加速基于 Transformer 的网络的预训练。Transformer 网络的预训练步骤通常会带来难以承受的整体计算开销。我们分析了 Transformer 网络的训练动态和稳定性,并提出了 PLD,通过渐进式丢弃策略稀疏地更新 Transformer 块,该策略随着训练在时间和模型深度维度上的进展,平稳地增加每个 mini-batch 的层丢弃率。PLD 能够使预训练速度**提升2.5倍**,同时在下游任务上获得相似的准确性;在训练相同数量样本时,训练速度**提升24%**,且不会带来过多的硬件资源开销。
- 有关详细的技术深入探讨,请参阅我们的技术报告。
- 有关如何使用 PLD 的更多信息,请参阅我们的渐进式层丢弃教程。
- PLD 的源代码现已在DeepSpeed 仓库中提供。