最新消息
DeepSpeed 能够一键完成类似 ChatGPT 的模型训练,与最先进的 RLHF 系统相比速度提升 15 倍,并且在所有规模上实现前所未有的成本降低;了解如何实现.
-
[2024/08] Windows 上的 DeepSpeed[日语] [中文]
- [2024/08] DeepNVMe:通过 I/O 优化改进 DL 应用[日语] [中文]
- [2024/07] DeepSpeed 通用检查点:大型分布式训练的有效灵活检查点[日语]
- [2024/03] DeepSpeed-FP6:FP6 为中心的大型语言模型服务的强大功能 [英语] [中文]
- [2024/01] DeepSpeed-FastGen:通过主要性能和功能增强引入 Mixtral、Phi-2 和 Falcon 支持。
更多新闻
DL 训练和推理的极速和规模
DeepSpeed 支持世界上最强大的语言模型,例如 MT-530B 和 BLOOM。它是一个易于使用的深度学习优化软件套件,为训练和推理提供前所未有的规模和速度。使用 DeepSpeed,您可以
- 训练/推理具有数十亿或数万亿参数的密集或稀疏模型
- 实现出色的系统吞吐量,并有效地扩展到数千个 GPU
- 在资源受限的 GPU 系统上进行训练/推理
- 实现前所未有的低延迟和高吞吐量推理
- 实现极端压缩,以低成本实现无与伦比的推理延迟和模型尺寸缩减
DeepSpeed 拥有四个创新支柱
DeepSpeed-Training
DeepSpeed 提供了系统创新的融合,使大规模 DL 训练变得有效且高效,大大提高了易用性,并在规模方面重新定义了 DL 训练领域。这些创新(例如 ZeRO、3D 并行、DeepSpeed-MoE、ZeRO-Infinity 等)属于 DeepSpeed-Training 支柱。了解更多信息:DeepSpeed-Training
DeepSpeed-Inference
DeepSpeed 将张量、流水线、专家和 ZeRO 并行等并行技术创新汇集在一起,并将它们与高性能自定义推理内核、通信优化和异构内存技术相结合,从而实现前所未有的规模推理,同时实现无与伦比的延迟、吞吐量和成本降低。这种用于推理的系统技术体系结构属于 DeepSpeed-Inference。了解更多信息:DeepSpeed-Inference
DeepSpeed-Compression
为了进一步提高推理效率,DeepSpeed 为研究人员和从业人员提供了易于使用且灵活组合的压缩技术,使他们能够压缩模型,同时提供更快的速度、更小的模型尺寸和显着降低的压缩成本。此外,SoTA 压缩方面的创新(如 ZeroQuant 和 XTC)包含在 DeepSpeed-Compression 支柱中。了解更多信息:DeepSpeed-Compression
DeepSpeed4Science
与微软致力于解决人类最紧迫挑战的使命相一致,微软的 DeepSpeed 团队正在启动一项名为 *DeepSpeed4Science* 的新举措,旨在通过人工智能系统技术创新建立独特的功能,帮助领域专家解开当今最大的科学谜团。了解更多信息:DeepSpeed4Science 网站 和 教程
DeepSpeed 软件套件
DeepSpeed 库
该 DeepSpeed 库将 DeepSpeed 训练、推理和压缩支柱中的创新和技术打包到一个易于使用、开源的存储库中。它允许在一个训练、推理或压缩流水线中轻松组合多种功能。DeepSpeed 库被 DL 社区广泛采用,并已被用于支持一些最强大的模型(参见 DeepSpeed 采用)。
推理模型实现 (MII)
推理模型实现 (MII) 是一个开源存储库,通过消除数据科学家自行应用复杂系统优化技术的需要,使低延迟和高吞吐量推理变得触手可及。MII 立即提供对数千种广泛使用的 DL 模型的支持,这些模型使用 DeepSpeed-Inference 进行优化,只需几行代码即可部署,同时与它们的 vanilla 开源版本相比实现显着延迟降低。
Azure 上的 DeepSpeed
DeepSpeed 用户多种多样,可以访问不同的环境。我们建议您尝试在 Azure 上使用 DeepSpeed,因为它是最简单、最容易的方法。在 Azure 上尝试 DeepSpeed 的推荐方法是通过 AzureML 配方。作业提交和数据准备脚本已在 此处 提供。有关如何在 Azure 上使用 DeepSpeed 的更多详细信息,请遵循 Azure 教程。
DeepSpeed 采用
DeepSpeed 已被用于训练许多不同的大型模型。以下是我们所知的几个示例(如果您想包含您的模型,请提交 PR)
- Megatron-Turing NLG (530B)
- Jurassic-1 (178B)
- BLOOM (176B)
- GLM (130B)
- YaLM (100B)
- GPT-NeoX (20B)
- AlexaTM (20B)
- Turing NLG (17B
- METRO-LM (5.4B)
DeepSpeed 已与几个不同的流行开源 DL 框架集成,例如
文档 | |
---|---|
带有 DeepSpeed 的 Transformers | |
带有 DeepSpeed 的 Accelerate | |
带有 DeepSpeed 的 Lightning | |
带有 DeepSpeed 的 MosaicML |
DeepSpeed 是 微软大规模人工智能计划 的重要组成部分,旨在大规模实现下一代人工智能功能。
贡献
DeepSpeed 欢迎您的贡献!请参阅我们的 贡献 指南,了解有关格式、测试等的更多详细信息。
贡献者许可协议
此项目欢迎贡献和建议。大多数贡献需要您同意贡献者许可协议 (CLA),声明您有权并实际授予我们使用您的贡献的权利。有关详细信息,请访问 https://cla.opensource.microsoft.com。
当您提交拉取请求时,CLA 机器人将自动确定您是否需要提供 CLA 并相应地修饰 PR(例如,状态检查、评论)。只需按照机器人提供的说明操作。您只需在使用我们 CLA 的所有存储库中执行一次此操作。
行为准则
此项目已采用 Microsoft 开源行为准则。有关更多信息,请参阅 行为准则常见问题解答 或联系 [email protected],提出任何其他问题或评论。
出版物
- Samyam Rajbhandari、Jeff Rasley、Olatunji Ruwase、Yuxiong He。(2019 年)ZeRO:面向训练万亿参数模型的内存优化。arXiv:1910.02054 和 在国际高性能计算、网络、存储和分析会议 (SC ‘20) 论文集 中。
- Jeff Rasley、Samyam Rajbhandari、Olatunji Ruwase 和 Yuxiong He。(2020 年)DeepSpeed:系统优化能够训练超过 1000 亿参数的深度学习模型。在第 26 届 ACM SIGKDD 国际知识发现与数据挖掘会议 (KDD ‘20,教程) 论文集 中。
- Minjia Zhang、Yuxiong He。(2020 年)使用渐进式层丢弃加速基于 Transformer 的语言模型的训练。arXiv:2010.13369 和 NeurIPS 2020。
- Jie Ren、Samyam Rajbhandari、Reza Yazdani Aminabadi、Olatunji Ruwase、Shuangyan Yang、Minjia Zhang、Dong Li、Yuxiong He。(2021 年)ZeRO-Offload:普及十亿级模型训练。arXiv:2101.06840 和 USENIX ATC 2021。[论文] [幻灯片] [博客]
- Hanlin Tang、Shaoduo Gan、Ammar Ahmad Awan、Samyam Rajbhandari、Conglong Li、Xiangru Lian、Ji Liu、Ce Zhang、Yuxiong He。(2021 年)1 比特 Adam:使用 Adam 的收敛速度进行通信高效的大规模训练。arXiv:2102.02888 和 ICML 2021。
- Samyam Rajbhandari,Olatunji Ruwase,Jeff Rasley,Shaden Smith,Yuxiong He。(2021)ZeRO-Infinity:突破GPU内存墙,实现极大规模深度学习。 arXiv:2104.07857 和 SC 2021。 [论文] [幻灯片] [博客]
- Conglong Li,Ammar Ahmad Awan,Hanlin Tang,Samyam Rajbhandari,Yuxiong He。(2021)1-bit LAMB:利用LAMB的收敛速度进行通信高效的大规模大批量训练。 arXiv:2104.06069 和 HiPC 2022.
- Conglong Li,Minjia Zhang,Yuxiong He。(2021)稳定性-效率困境:探究训练GPT模型的序列长度预热。 arXiv:2108.06084 和 NeurIPS 2022.
- Yucheng Lu,Conglong Li,Minjia Zhang,Christopher De Sa,Yuxiong He。(2022)通过0/1 Adam最大限度提高大规模训练的通信效率。 arXiv:2202.06009.
- Samyam Rajbhandari,Conglong Li,Zhewei Yao,Minjia Zhang,Reza Yazdani Aminabadi,Ammar Ahmad Awan,Jeff Rasley,Yuxiong He。(2022)DeepSpeed-MoE:推动混合专家推断和训练,为下一代AI规模提供动力 arXiv:2201.05596 和 ICML 2022。 [pdf] [幻灯片] [博客]
- Shaden Smith,Mostofa Patwary,Brandon Norick,Patrick LeGresley,Samyam Rajbhandari,Jared Casper,Zhun Liu,Shrimai Prabhumoye,George Zerveas,Vijay Korthikanti,Elton Zhang,Rewon Child,Reza Yazdani Aminabadi,Julie Bernauer,Xia Song,Mohammad Shoeybi,Yuxiong He,Michael Houston,Saurabh Tiwary,Bryan Catanzaro。(2022)使用DeepSpeed和Megatron训练Megatron-Turing NLG 530B,一个大规模生成式语言模型 arXiv:2201.11990.
- Xiaoxia Wu,Zhewei Yao,Minjia Zhang,Conglong Li,Yuxiong He。(2022)预训练Transformer的极端压缩变得简单高效。 arXiv:2206.01859 和 NeurIPS 2022.
- Zhewei Yao,Reza Yazdani Aminabadi,Minjia Zhang,Xiaoxia Wu,Conglong Li,Yuxiong He。(2022)ZeroQuant:高效且经济实惠的大规模Transformer训练后量化。 arXiv:2206.01861 和 NeurIPS 2022 [幻灯片] [博客]
- Reza Yazdani Aminabadi,Samyam Rajbhandari,Minjia Zhang,Ammar Ahmad Awan,Cheng Li,Du Li,Elton Zheng,Jeff Rasley,Shaden Smith,Olatunji Ruwase,Yuxiong He。(2022)DeepSpeed Inference:使Transformer模型在空前规模上实现高效推断。 arXiv:2207.00032 和 SC 2022。 [论文] [幻灯片] [博客]
- Zhewei Yao,Xiaoxia Wu,Conglong Li,Connor Holmes,Minjia Zhang,Cheng Li,Yuxiong He。(2022)Random-LTD:随机和逐层Token丢弃为大规模Transformer带来高效训练。 arXiv:2211.11586.
- Conglong Li,Zhewei Yao,Xiaoxia Wu,Minjia Zhang,Yuxiong He。(2022)DeepSpeed数据效率:通过高效数据采样和路由,提高深度学习模型质量和训练效率。 arXiv:2212.03597 ENLSP2023 Workshop at NeurIPS2023
- Xiaoxia Wu,Cheng Li,Reza Yazdani Aminabadi,Zhewei Yao,Yuxiong He。(2023)了解Transformer模型的INT4量化:延迟加速、可组合性和失败案例。 arXiv:2301.12017 和 ICML2023.
- Syed Zawad,Cheng Li,Zhewei Yao,Elton Zheng,Yuxiong He,Feng Yan。(2023)DySR:通过算法和系统协同设计实现自适应超分辨率。 ICLR:2023.
- Sheng Shen,Zhewei Yao,Chunyuan Li,Trevor Darrell,Kurt Keutzer,Yuxiong He。(2023)使用稀疏混合专家扩展视觉语言模型。 arXiv:2303.07226 和 Finding at EMNLP2023.
- Quentin Anthony,Ammar Ahmad Awan,Jeff Rasley,Yuxiong He,Aamir Shafi,Mustafa Abduljabbar,Hari Subramoni,Dhabaleswar Panda。(2023)MCR-DL:混合匹配通信运行时用于深度学习 arXiv:2303.08374 并将在IPDPS 2023上发表。
- Siddharth Singh,Olatunji Ruwase,Ammar Ahmad Awan,Samyam Rajbhandari,Yuxiong He,Abhinav Bhatele。(2023)一种混合张量-专家-数据并行方法来优化混合专家训练 arXiv:2303.06318 并将在ICS 2023上发表。
- Guanhua Wang,Heyang Qin,Sam Ade Jacobs,Xiaoxia Wu,Connor Holmes,Zhewei Yao,Samyam Rajbhandari,Olatunji Ruwase,Feng Yan,Lei Yang,Yuxiong He。(2023)ZeRO++:针对巨型模型训练的极高效集体通信 arXiv:2306.10209 和 ML for Sys Workshop at NeurIPS2023 [博客]
- Zhewei Yao,Xiaoxia Wu,Cheng Li,Stephen Youn,Yuxiong He。(2023)ZeroQuant-V2:从全面研究到低秩补偿,探索LLM训练后量化 arXiv:2303.08302 和 ENLSP2023 Workshop at NeurIPS2023 [幻灯片]
- Pareesa Ameneh Golnari,Zhewei Yao,Yuxiong He。(2023)选择性指导:引导扩散的所有去噪步骤都重要吗? arXiv:2305.09847
- Zhewei Yao,Reza Yazdani Aminabadi,Olatunji Ruwase,Samyam Rajbhandari,Xiaoxia Wu,Ammar Ahmad Awan,Jeff Rasley,Minjia Zhang,Conglong Li,Connor Holmes,Zhongzhu Zhou,Michael Wyatt,Molly Smith,Lev Kurilenko,Heyang Qin,Masahiro Tanaka,Shuai Che,Shuaiwen Leon Song,Yuxiong He。(2023)DeepSpeed-Chat:在所有规模上轻松、快速、经济实惠地进行类似ChatGPT模型的RLHF训练 arXiv:2308.01320.
- Xiaoxia Wu,Zhewei Yao,Yuxiong He。(2023)ZeroQuant-FP:使用浮点格式,LLM训练后W4A8量化的重大突破 arXiv:2307.09782 和 ENLSP2023 Workshop at NeurIPS2023 [幻灯片]
- Zhewei Yao,Xiaoxia Wu,Conglong Li,Minjia Zhang,Heyang Qin,Olatunji Ruwase,Ammar Ahmad Awan,Samyam Rajbhandari,Yuxiong He。(2023)DeepSpeed-VisualChat:通过多模态因果注意力实现多轮多图像交织聊天 arXiv:2309.14327
- Shuaiwen Leon Song,Bonnie Kruft,Minjia Zhang,Conglong Li,Shiyang Chen,Chengming Zhang,Masahiro Tanaka,Xiaoxia Wu,Jeff Rasley,Ammar Ahmad Awan,Connor Holmes,Martin Cai,Adam Ghanem,Zhongzhu Zhou,Yuxiong He 等。(2023)DeepSpeed4Science计划:通过先进的AI系统技术实现大规模科学发现 arXiv:2310.04610 [博客]
- Zhewei Yao,Reza Yazdani Aminabadi,Stephen Youn,Xiaoxia Wu,Elton Zheng,Yuxiong He。(2023)ZeroQuant-HERO:用于W8A8 Transformer的硬件增强型鲁棒优化训练后量化框架 arXiv:2310.17723
- Sam Ade Jacobs,Masahiro Tanaka,Chengming Zhang,Minjia Zhang,Reza Yazdani Aminadabi,Shuaiwen Leon Song,Samyam Rajbhandari,Yuxiong He。(2024) 支持极长序列Transformer模型训练的系统优化
- Xinyu Lian,Sam Ade Jacobs,Lev Kurilenko,Masahiro Tanaka,Stas Bekman,Olatunji Ruwase,Minjia Zhang。(2024)通用检查点:用于大规模分布式训练的高效灵活的检查点 arXiv:2406.18820
视频
- DeepSpeed KDD 2020 教程
- 概述
- ZeRO + 大型模型训练
- 17B T-NLG 演示
- 最快BERT训练 + RScan 调整
- DeepSpeed 实践深入: 第一部分, 第二部分, 第三部分
- 常见问题
- 微软研究院网络研讨会
- 注册免费,所有视频可按需观看。
- ZeRO & Fastest BERT:在 DeepSpeed 中提升深度学习训练的规模和速度.
- AzureML 上的 DeepSpeed
- 使用 DeepSpeed 进行大型模型训练和推理 // Samyam Rajbhandari // LLMs in Prod 会议 [幻灯片]
- 社区教程