利用流水线并行训练万亿参数模型

DeepSpeed 新增了对流水线并行的支持!DeepSpeed 的训练引擎提供了混合式 3D 并行,可用于训练超过万亿参数的模型。除了能够扩展到极致规模外,我们还证明了混合并行可以在低带宽网络集群上将训练速度提高多达 7 倍。

  • 有关包括万亿参数功能在内的简要概述和结果,请参阅我们的新闻稿
  • 要开始在 DeepSpeed 中进行流水线并行训练,我们推荐我们的教程
  • 请参阅 DeepSpeedExamples 中的 AlexNet 示例。
  • 请在 readthedocs 上阅读我们的 API 文档。

更新日期: