ZeRO-2 实现数量级更大、更快的训练

2020年5月18日

ZeRO-2 在原始 ZeRO 的基础上，通过解决训练期间内存消耗的完整范围，扩展了内存优化的范围。更具体地说，ZeRO-2 引入了新技术来减少梯度、激活内存和碎片内存的内存占用，此外还优化了原始 ZeRO 中的优化器状态内存。总之，这些内存节省使 DeepSpeed 能够将深度学习训练的规模和速度提高一个数量级。更具体地说，ZeRO-2 允许训练多达 1700 亿参数的模型，与现有技术相比速度快了多达 10 倍。

有关 ZeRO-2 的更多信息，请参阅我们的博客文章。

有关如何使用 ZeRO-2 的更多信息，请在此教程中查看训练 GPT 系列模型的示例。

如需技术概述，请参阅我们的技术报告。

Twitter Facebook LinkedIn