ZeRO-2 实现数量级更大、更快的训练
ZeRO-2 在原始 ZeRO 的基础上,通过解决训练期间内存消耗的完整范围,扩展了内存优化的范围。更具体地说,ZeRO-2 引入了新技术来减少梯度、激活内存和碎片内存的内存占用,此外还优化了原始 ZeRO 中的优化器状态内存。总之,这些内存节省使 DeepSpeed 能够将深度学习训练的规模和速度提高一个数量级。更具体地说,ZeRO-2 允许训练多达 1700 亿参数的模型,与现有技术相比速度快了多达 10 倍。
有关 ZeRO-2 的更多信息,请参阅我们的博客文章。
有关如何使用 ZeRO-2 的更多信息,请在此教程中查看训练 GPT 系列模型的示例。
如需技术概述,请参阅我们的技术报告。