使用 ZeRO-Offload 在单个 GPU 上训练 10 倍更大的模型

我们介绍了一种名为 ZeRO-Offload 的新技术,它可以实现 **在单个 GPU 上训练 10 倍更大的模型**。ZeRO-Offload 扩展了 ZeRO-2,利用 CPU 和 GPU 内存来训练大型模型。使用具有 **单个 GPU** 的机器,我们的用户现在可以运行 **高达 130 亿参数的模型** 而不出现内存不足的问题,比现有方法大 10 倍,同时获得有竞争力的吞吐量。此功能使多十亿参数模型训练民主化,并为许多深度学习从业者打开了探索更大、更好的模型的大门。

  • 有关 ZeRO-Offload 的更多信息,请参见我们的 新闻稿
  • 有关如何使用 ZeRO-Offload 的更多信息,请参见我们的 ZeRO-Offload 教程
  • ZeRO-Offload 的源代码可以在 DeepSpeed 仓库 中找到。

更新时间: