通过 1 位 Adam 实现高达 5 倍的通信量减少和 3.4 倍的训练速度提升

Adam 是一种有效的优化器,可能是训练许多大型深度学习模型最常用的优化器。然而,Adam 通常与通信效率高的优化算法不兼容,因此在分布式设备上进行扩展时,通信成本可能会成为瓶颈。我们介绍了一种新的算法 - 1 位 Adam - 以及它在 DeepSpeed 中的有效实现。1 位 Adam 提供了与 Adam 相同的收敛性,但通信量减少了高达 5 倍,这使得在带宽受限的集群上,BERT-Large 预训练的吞吐量提高了高达 3.5 倍SQuAD 微调的吞吐量提高了高达 2.7 倍

更新时间: