ZeRO-2:实现数量级提升的训练速度和规模

ZeRO-2 在原始 ZeRO 的基础上扩展了内存优化的范围,解决了训练过程中所有类型的内存消耗问题。更具体地说,除了原始 ZeRO 中的优化器状态内存优化外,ZeRO-2 还引入了新的技术来减少梯度、激活内存和碎片内存的内存占用。总而言之,内存节省使 DeepSpeed 能够将深度学习训练的规模和速度提高一个数量级。更具体地说,与现有技术相比,ZeRO-2 允许训练高达 1700 亿参数的模型,速度提高 10 倍。

有关 ZeRO-2 的更多信息,请查看我们的 博客文章

有关如何使用 ZeRO-2 的更多信息,请查看此 教程 中的 GPT 系列模型训练示例。

有关技术概述,请参阅我们的 技术报告

更新: