使用流水线并行训练万亿参数模型

DeepSpeed 包含对流水线并行的全新支持!DeepSpeed 的训练引擎为训练拥有超过万亿参数的模型提供了混合 3D 并行。除了进行极致的扩展,我们还证明了混合并行可以在低带宽网络集群上将训练速度提升高达 7 倍。

  • 有关包括万亿参数能力的简要概述和结果,请参阅我们的新闻稿
  • 要开始使用 DeepSpeed 中的流水线并行训练,我们推荐我们的教程
  • DeepSpeedExamples中查看我们的 AlexNet 示例。
  • 阅读我们在readthedocs上的 API 文档。

更新: