DeepSpeed 混合量化 (MoQ)
DeepSpeed 引入了对使用量化进行模型压缩的新支持,称为混合量化 (MoQ)。MoQ 建立在 QAT (量化...) 之上。
DeepSpeed 引入了对使用量化进行模型压缩的新支持,称为混合量化 (MoQ)。MoQ 建立在 QAT (量化...) 之上。
内容 内容 简介 编写加速器无关模型 移植加速器运行时调用 移植加速器设备名称 Te...
内容 内容 简介 英特尔架构 (IA) CPU 英特尔 XPU 华为昇腾 NPU 英特尔 Gaudi
使用 pip 开始使用 DeepSpeed 的最快方法,这将安装 DeepSpeed 的最新版本,该版本与特定 PyTorch 或 CUDA 版本无关...
内容 简介 示例脚本 启动 T5 11B 推理 性能比较 OPT 13B 推理 性能比较 ...
自动发现提供良好训练速度的最佳 DeepSpeed 配置
本教程将帮助您在 Azure 上开始使用 DeepSpeed。
使用 DeepSpeed 训练您的第一个模型!
记录所有 DeepSpeed 通信调用
注意!在 2022 年 12 月 12 日,我们发布了 DeepSpeed 数据效率库,该库提供了更通用的课程学习支持。此传统课程 lea...
什么是 DeepSpeed 数据效率:DeepSpeed 数据效率是一个专门构建的库,旨在更好地利用数据,提高训练效率,并 impr...
本教程将展示如何使用 DeepNVMe 在持久存储和驻留在主机或设备内存中的张量之间进行数据传输。DeepNVMe 提高了 th...
在本教程中,我们将介绍如何启用 DeepSpeed-Ulysses。DeepSpeed-Ulysses 是一种简单但高度通信和内存有效的机制序列 ...
1. 什么是 DS4Sci_EvoformerAttention DS4Sci_EvoformerAttention 是一个内核集合,用于将 Evoformer 计算扩展到更大的序列数...
测量模型的参数、延迟和浮点运算
使用 DeepSpeed 训练您的第一个 GAN 模型!
DeepSpeed 的第一步
DeepSpeed-Inference v2 来了,它被称为 DeepSpeed-FastGen!为了获得最佳性能、最新功能和最新的模型支持,请参阅我们的 DeepS...
本教程展示了如何在 PyTorch 中执行学习率范围测试。
如果您还没有,我们建议您在开始本教程之前先阅读入门指南。
混合精度 ZeRO++ (MixZ++) 是一组基于 ZeRO 和 ZeRO++ 的优化策略,旨在提高大型模型的效率并减少内存使用量...
DeepSpeed-MoE 推理在密集模型的推理优化 (DeepSpeed-Inference 博客文章) 之上引入了几个重要功能。它 embra...
在本教程中,我们将介绍如何将 DeepSpeed 混合专家 (MoE) 应用于 NLG 模型,这将训练成本降低 5 倍,并将 MoE m...
DeepSpeed v0.5 引入了对训练混合专家 (MoE) 模型的新支持。MoE 模型是一种新兴的稀疏激活模型,具有 s...
什么是 DeepSpeed 压缩:DeepSpeed 压缩是一个专门构建的库,旨在让研究人员和从业人员轻松压缩模型,同时 ...
实时监控模型的训练指标并记录以供将来分析
本教程展示了如何在 PyTorch 中为学习率和动量实现单周期调度。
注意:在 2022 年 3 月 7 日,我们发布了 0/1 Adam,这是一种新的通信效率高的 Adam 优化器,部分遵循 1 比特 Adam 的设计。与 ... 相比
注意!1) 基于 NCCL 的实现需要 PyTorch >= 1.8(当您有 64 个或更多 GPU 时,NCCL >= 2.8.3)。查看以下详细信息。2) 虽然 1...
DeepSpeed v0.3 包括对流水线并行的全新支持!流水线并行提高了深度学习训练的内存和计算效率 ...
在本教程中,我们将介绍 DeepSpeed 中的渐进层丢弃 (PLD),并提供有关如何使用 PLD 的示例。PLD 允许训练 Tra...
本教程介绍了如何将 PyTorch 分析器与 DeepSpeed 结合使用。
在本教程中,我们将介绍如何使用 DeepSpeed 稀疏注意力 (SA) 及其构建块内核。使用 SA 的最简单方法是通过 DeepSpeed launch...
本教程展示了如何启用 DeepSpeed transformer 内核并设置其不同的配置参数。
DeepSpeed 通用检查点功能是一个强大的工具,用于以高效灵活的方式保存和加载模型检查点,从而实现 ...
ZeRO-3 Offload 是我们新发布的 ZeRO-Infinity 中的一组功能。阅读我们的 ZeRO-Infinity 博客以了解更多信息!
注意!1) 基于 NCCL 的实现需要 PyTorch >= 1.8(当您有 64 个或更多 GPU 时,NCCL >= 2.8.3)。查看以下详细信息。2) 虽然 0...
ZeRO++ 是建立在 ZeRO 之上的通信优化策略系统,无论规模如何,都能为大型模型训练提供无与伦比的效率...