渐进式层丢弃

2020年10月28日

我们引入了一项名为渐进式层丢弃（PLD）的新技术，旨在通过高效、鲁棒的压缩训练来加速基于 Transformer 的网络的预训练。Transformer 网络的预训练步骤通常会带来难以承受的整体计算开销。我们分析了 Transformer 网络的训练动态和稳定性，并提出了 PLD，通过渐进式丢弃策略稀疏地更新 Transformer 块，该策略随着训练在时间和模型深度维度上的进展，平稳地增加每个 mini-batch 的层丢弃率。PLD 能够使预训练速度**提升2.5倍**，同时在下游任务上获得相似的准确性；在训练相同数量样本时，训练速度**提升24%**，且不会带来过多的硬件资源开销。

有关详细的技术深入探讨，请参阅我们的技术报告。
有关如何使用 PLD 的更多信息，请参阅我们的渐进式层丢弃教程。
PLD 的源代码现已在DeepSpeed 仓库中提供。

推特脸书领英