渐进式层丢弃

我们引入了一项名为渐进式层丢弃(PLD)的新技术,旨在通过高效、鲁棒的压缩训练来加速基于 Transformer 的网络的预训练。Transformer 网络的预训练步骤通常会带来难以承受的整体计算开销。我们分析了 Transformer 网络的训练动态和稳定性,并提出了 PLD,通过渐进式丢弃策略稀疏地更新 Transformer 块,该策略随着训练在时间和模型深度维度上的进展,平稳地增加每个 mini-batch 的层丢弃率。PLD 能够使预训练速度**提升2.5倍**,同时在下游任务上获得相似的准确性;在训练相同数量样本时,训练速度**提升24%**,且不会带来过多的硬件资源开销。

更新于: