在单个GPU上使用ZeRO-Offload训练10倍更大的模型
我们引入了一项名为ZeRO-Offload的新技术,以实现在单个GPU上训练10倍更大的模型。ZeRO-Offload扩展了ZeRO-2,利用CPU和GPU内存来训练大型模型。使用单个GPU的机器,我们的用户现在可以运行高达130亿参数的模型而不会耗尽内存,这比现有方法大10倍,同时获得了具有竞争力的吞吐量。这项功能使数十亿参数模型的训练得以普及,并为许多深度学习实践者打开了探索更大更好模型的窗口。
- 有关 ZeRO-Offload 的更多信息,请参阅我们的新闻稿。
- 有关如何使用 ZeRO-Offload 的更多信息,请参阅我们的ZeRO-Offload 教程。
- ZeRO-Offload 的源代码可在DeepSpeed 仓库中找到。