最新消息

DeepSpeed 通过一键操作支持 ChatGPT 类模型的训练,与 SOTA RLHF 系统相比,速度提升 15 倍,并且在所有规模上都实现了前所未有的成本降低;了解详情.

更多新闻

深度学习训练和推理的极速与规模

DeepSpeed 支持世界上最强大的语言模型,例如 MT-530BBLOOM。它是一个易于使用的深度学习优化软件套件,为训练和推理提供前所未有的规模和速度。使用 DeepSpeed,您可以

  • 训练/推理具有数十亿或数万亿参数的密集或稀疏模型
  • 实现出色的系统吞吐量并有效扩展到数千个 GPU
  • 在资源受限的 GPU 系统上进行训练/推理
  • 为推理实现前所未有的低延迟和高吞吐量
  • 实现极端压缩,以低成本实现无与伦比的推理延迟和模型大小缩减

DeepSpeed 有四个创新支柱

Four innovation pillars

DeepSpeed-训练

DeepSpeed 提供了系统创新的融合,使大规模深度学习训练变得有效且高效,极大地提高了易用性,并在规模方面重新定义了深度学习训练格局。这些创新(如 ZeRO、3D 并行、DeepSpeed-MoE、ZeRO-Infinity 等)属于 DeepSpeed-训练支柱。了解更多:DeepSpeed-训练

DeepSpeed-推理

DeepSpeed 将并行技术(如张量、流水线、专家和 ZeRO 并行)的创新整合在一起,并将它们与高性能自定义推理内核、通信优化和异构内存技术相结合,从而以前所未有的规模实现推理,同时实现无与伦比的延迟、吞吐量和成本降低。这种针对推理的系统技术组合属于 DeepSpeed-推理。了解更多:DeepSpeed-推理

DeepSpeed-压缩

为了进一步提高推理效率,DeepSpeed 为研究人员和实践者提供了易于使用且易于组合的压缩技术,以便在提供更快的速度、更小的模型尺寸和显着降低的压缩成本的同时压缩他们的模型。此外,ZeroQuant 和 XTC 等压缩方面的 SOTA 创新也包含在 DeepSpeed-压缩支柱下。了解更多:DeepSpeed-压缩

DeepSpeed4Science

为了响应微软解决人类最紧迫挑战的使命,微软的 DeepSpeed 团队发起了一项名为 DeepSpeed4Science 的新计划,旨在通过人工智能系统技术的创新构建独特的能力,帮助领域专家揭开当今最大的科学奥秘。了解更多:DeepSpeed4Science 网站教程

DeepSpeed 软件套件

DeepSpeed 库

DeepSpeed 库将 DeepSpeed 训练、推理和压缩支柱中的创新和技术实现并打包到一个易于使用的开源存储库中。它允许在单个训练、推理或压缩管道中轻松组合多种功能。DeepSpeed 库被深度学习社区广泛采用,并已用于支持一些最强大的模型(参见 DeepSpeed 采用情况)。

推理模型实现 (MII)

推理模型实现 (MII) 是一个开源存储库,通过消除数据科学家自己应用复杂系统优化技术的需要,使所有数据科学家都能访问低延迟和高吞吐量的推理。MII 开箱即用地支持数千种广泛使用的深度学习模型,这些模型使用 DeepSpeed-Inference 进行优化,只需几行代码即可部署,与它们的普通开源版本相比,可以显着降低延迟。

Azure 上的 DeepSpeed

DeepSpeed 用户多种多样,并且可以访问不同的环境。我们建议您尝试在 Azure 上使用 DeepSpeed,因为这是最简单易用的方法。在 Azure 上尝试 DeepSpeed 的推荐方法是通过 AzureML 配方。作业提交和数据准备脚本已在此处提供 此处。有关如何在 Azure 上使用 DeepSpeed 的更多详细信息,请遵循 Azure 教程

DeepSpeed 采用情况

DeepSpeed 已用于训练许多不同的大型模型。以下列出了一些我们已知的示例(如果您想包含您的模型,请提交 PR)

DeepSpeed 已与多个不同的流行开源深度学习框架集成,例如

  文档
带有 DeepSpeed 的 Transformers
带有 DeepSpeed 的 Accelerate
带有 DeepSpeed 的 Lightning
带有 DeepSpeed 的 MosaicML

DeepSpeed 是 微软规模化人工智能计划 中不可或缺的一部分,旨在实现规模化下一代人工智能能力。

贡献

DeepSpeed 欢迎您的贡献!请参阅我们的 贡献 指南,了解有关格式、测试等的更多详细信息。

贡献者许可协议

此项目欢迎贡献和建议。大多数贡献都需要您同意贡献者许可协议 (CLA),声明您有权并且确实授予我们使用您的贡献的权利。有关详细信息,请访问 https://cla.opensource.microsoft.com。

当您提交拉取请求时,CLA 机器人将自动确定您是否需要提供 CLA 并适当地装饰 PR(例如,状态检查、评论)。只需按照机器人提供的说明操作即可。您只需在使用我们 CLA 的所有存储库中执行一次此操作。

行为准则

此项目已采用 Microsoft 开源行为准则。有关更多信息,请参阅 行为准则常见问题解答 或联系 [email protected] 以获取任何其他问题或意见。

出版物

  1. Samyam Rajbhandari、Jeff Rasley、Olatunji Ruwase 和 Yuxiong He。(2019)ZeRO:迈向训练万亿参数模型的内存优化。arXiv:1910.02054在高性能计算、网络、存储和分析国际会议论文集(SC '20)中
  2. Jeff Rasley、Samyam Rajbhandari、Olatunji Ruwase 和 Yuxiong He。(2020)DeepSpeed:系统优化支持训练超过 1000 亿参数的深度学习模型。在第 26 届 ACM SIGKDD 国际知识发现与数据挖掘会议论文集(KDD '20,教程)中
  3. Minjia Zhang 和 Yuxiong He。(2020)使用渐进式层丢弃加速基于 Transformer 的语言模型的训练。arXiv:2010.13369NeurIPS 2020
  4. Jie Ren,Samyam Rajbhandari,Reza Yazdani Aminabadi,Olatunji Ruwase,Shuangyan Yang,Minjia Zhang,Dong Li,Yuxiong He。(2021)ZeRO-Offload:让数十亿规模模型训练平民化。 arXiv:2101.06840USENIX ATC 2021[论文] [幻灯片] [博客]
  5. Hanlin Tang,Shaoduo Gan,Ammar Ahmad Awan,Samyam Rajbhandari,Conglong Li,Xiangru Lian,Ji Liu,Ce Zhang,Yuxiong He。(2021)1-bit Adam:使用Adam的收敛速度进行通信高效的大规模训练。 arXiv:2102.02888ICML 2021
  6. Samyam Rajbhandari,Olatunji Ruwase,Jeff Rasley,Shaden Smith,Yuxiong He。(2021)ZeRO-Infinity:打破GPU内存墙,实现极大规模深度学习。 arXiv:2104.07857SC 2021[论文] [幻灯片] [博客]
  7. Conglong Li,Ammar Ahmad Awan,Hanlin Tang,Samyam Rajbhandari,Yuxiong He。(2021)1-bit LAMB:使用LAMB的收敛速度进行通信高效的大规模大批量训练。 arXiv:2104.06069HiPC 2022
  8. Conglong Li,Minjia Zhang,Yuxiong He。(2021)稳定性-效率困境:研究用于训练GPT模型的序列长度预热。 arXiv:2108.06084NeurIPS 2022
  9. Yucheng Lu,Conglong Li,Minjia Zhang,Christopher De Sa,Yuxiong He。(2022)通过0/1 Adam最大化大规模训练的通信效率。 arXiv:2202.06009
  10. Samyam Rajbhandari,Conglong Li,Zhewei Yao,Minjia Zhang,Reza Yazdani Aminabadi,Ammar Ahmad Awan,Jeff Rasley,Yuxiong He。(2022)DeepSpeed-MoE:推进混合专家推理和训练,为下一代AI规模提供动力 arXiv:2201.05596ICML 2022[pdf] [幻灯片] [博客]
  11. Shaden Smith,Mostofa Patwary,Brandon Norick,Patrick LeGresley,Samyam Rajbhandari,Jared Casper,Zhun Liu,Shrimai Prabhumoye,George Zerveas,Vijay Korthikanti,Elton Zhang,Rewon Child,Reza Yazdani Aminabadi,Julie Bernauer,Xia Song,Mohammad Shoeybi,Yuxiong He,Michael Houston,Saurabh Tiwary,Bryan Catanzaro。(2022)使用DeepSpeed和Megatron训练Megatron-Turing NLG 530B,一个大型生成语言模型 arXiv:2201.11990
  12. Xiaoxia Wu,Zhewei Yao,Minjia Zhang,Conglong Li,Yuxiong He。(2022)预训练Transformer的极端压缩变得简单高效。 arXiv:2206.01859NeurIPS 2022
  13. Zhewei Yao,Reza Yazdani Aminabadi,Minjia Zhang,Xiaoxia Wu,Conglong Li,Yuxiong He。(2022)ZeroQuant:大型Transformer的有效且经济的训练后量化。 arXiv:2206.01861NeurIPS 2022 [幻灯片] [博客]
  14. Reza Yazdani Aminabadi,Samyam Rajbhandari,Minjia Zhang,Ammar Ahmad Awan,Cheng Li,Du Li,Elton Zheng,Jeff Rasley,Shaden Smith,Olatunji Ruwase,Yuxiong He。(2022)DeepSpeed Inference:在空前规模下实现Transformer模型的高效推理。 arXiv:2207.00032SC 2022[论文] [幻灯片] [博客]
  15. Zhewei Yao,Xiaoxia Wu,Conglong Li,Connor Holmes,Minjia Zhang,Cheng Li,Yuxiong He。(2022)Random-LTD:随机和分层Token丢弃为大型Transformer带来了高效的训练。 arXiv:2211.11586
  16. Conglong Li,Zhewei Yao,Xiaoxia Wu,Minjia Zhang,Yuxiong He。(2022)DeepSpeed数据效率:通过高效的数据采样和路由提高深度学习模型质量和训练效率。 arXiv:2212.03597 NeurIPS2023研讨会上的ENLSP2023
  17. Xiaoxia Wu,Cheng Li,Reza Yazdani Aminabadi,Zhewei Yao,Yuxiong He。(2023)理解Transformer模型的INT4量化:延迟加速、组合性和故障案例。 arXiv:2301.12017ICML2023
  18. Syed Zawad,Cheng Li,Zhewei Yao,Elton Zheng,Yuxiong He,Feng Yan。(2023)DySR:通过算法和系统协同设计实现自适应超分辨率。 ICLR:2023
  19. Sheng Shen,Zhewei Yao,Chunyuan Li,Trevor Darrell,Kurt Keutzer,Yuxiong He。(2023)使用稀疏混合专家扩展视觉语言模型。 arXiv:2303.07226EMNLP2023上的发现
  20. Quentin Anthony,Ammar Ahmad Awan,Jeff Rasley,Yuxiong He,Aamir Shafi,Mustafa Abduljabbar,Hari Subramoni,Dhabaleswar Panda。(2023)MCR-DL:深度学习的混合匹配通信运行时 arXiv:2303.08374 并在IPDPS 2023上发表。
  21. Siddharth Singh,Olatunji Ruwase,Ammar Ahmad Awan,Samyam Rajbhandari,Yuxiong He,Abhinav Bhatele。(2023)混合张量-专家-数据并行方法优化混合专家训练 arXiv:2303.06318 并在ICS 2023上发表。
  22. Guanhua Wang,Heyang Qin,Sam Ade Jacobs,Xiaoxia Wu,Connor Holmes,Zhewei Yao,Samyam Rajbhandari,Olatunji Ruwase,Feng Yan,Lei Yang,Yuxiong He。(2023)ZeRO++:用于巨型模型训练的极其高效的集体通信 arXiv:2306.10209NeurIPS2023研讨会上的ML for Sys [博客]
  23. Zhewei Yao,Xiaoxia Wu,Cheng Li,Stephen Youn,Yuxiong He。(2023)ZeroQuant-V2:从综合研究到低秩补偿探索LLM中的训练后量化 arXiv:2303.08302NeurIPS2023研讨会上的ENLSP2023 [幻灯片]
  24. Pareesa Ameneh Golnari,Zhewei Yao,Yuxiong He。(2023)选择性引导:引导扩散的所有去噪步骤都重要吗? arXiv:2305.09847
  25. Zhewei Yao,Reza Yazdani Aminabadi,Olatunji Ruwase,Samyam Rajbhandari,Xiaoxia Wu,Ammar Ahmad Awan,Jeff Rasley,Minjia Zhang,Conglong Li,Connor Holmes,Zhongzhu Zhou,Michael Wyatt,Molly Smith,Lev Kurilenko,Heyang Qin,Masahiro Tanaka,Shuai Che,Shuaiwen Leon Song,Yuxiong He。(2023)DeepSpeed-Chat:轻松、快速且经济地进行各种规模的类似ChatGPT模型的RLHF训练 arXiv:2308.01320
  26. Xiaoxia Wu,Zhewei Yao,Yuxiong He。(2023)ZeroQuant-FP:使用浮点格式在LLM训练后W4A8量化方面取得飞跃 arXiv:2307.09782NeurIPS2023研讨会上的ENLSP2023 [幻灯片]
  27. Zhewei Yao,Xiaoxia Wu,Conglong Li,Minjia Zhang,Heyang Qin,Olatunji Ruwase,Ammar Ahmad Awan,Samyam Rajbhandari,Yuxiong He。(2023)DeepSpeed-VisualChat:通过多模态因果注意力实现多轮多图像交错聊天 arXiv:2309.14327
  28. Shuaiwen Leon Song,Bonnie Kruft,Minjia Zhang,Conglong Li,Shiyang Chen,Chengming Zhang,Masahiro Tanaka,Xiaoxia Wu,Jeff Rasley,Ammar Ahmad Awan,Connor Holmes,Martin Cai,Adam Ghanem,Zhongzhu Zhou,Yuxiong He,等。(2023)DeepSpeed4Science计划:通过先进的AI系统技术实现大规模科学发现 arXiv:2310.04610 [博客]
  29. Zhewei Yao,Reza Yazdani Aminabadi,Stephen Youn,Xiaoxia Wu,Elton Zheng,Yuxiong He。(2023)ZeroQuant-HERO:用于W8A8 Transformer的硬件增强鲁棒优化训练后量化框架 arXiv:2310.17723
  30. Sam Ade Jacobs,Masahiro Tanaka,Chengming Zhang,Minjia Zhang,Reza Yazdani Aminadabi,Shuaiwen Leon Song,Samyam Rajbhandari,Yuxiong He。(2024)支持极长序列Transformer模型训练的系统优化
  31. Xinyu Lian,Sam Ade Jacobs,Lev Kurilenko,Masahiro Tanaka,Stas Bekman,Olatunji Ruwase,Minjia Zhang。(2024)通用检查点:用于大规模分布式训练的有效且灵活的检查点 arXiv:2406.18820

视频

  1. DeepSpeed KDD 2020 教程
    1. 概述
    2. ZeRO + 大型模型训练
    3. 17B T-NLG 演示
    4. 最快BERT训练 + RScan 调优
    5. DeepSpeed 实操深度解读: 第一部分第二部分第三部分
    6. 常见问题
  2. 微软研究院网络研讨会
  3. AzureML上的DeepSpeed
  4. 使用DeepSpeed进行大型模型训练和推理 // Samyam Rajbhandari // LLMs in Prod会议 [幻灯片]
  5. 社区教程