DeepSpeed 混合量化 (MoQ)
DeepSpeed 引入了对使用量化进行模型压缩的新支持,称为混合量化 (MoQ)。MoQ 基于 QAT (量化...) 设计。
DeepSpeed 引入了对使用量化进行模型压缩的新支持,称为混合量化 (MoQ)。MoQ 基于 QAT (量化...) 设计。
目录 目录 简介 编写与加速器无关的模型 移植加速器运行时调用 移植加速器设备名称 移...
目录 目录 简介 英特尔架构 (IA) CPU 英特尔 XPU 华为昇腾 NPU 英特尔 Gaudi
开始使用 DeepSpeed 最快捷的方式是通过 pip,这将安装 DeepSpeed 的最新版本,该版本不与特定的 PyTorch 或 CUDA 版...
目录 简介 示例脚本 启动 T5 11B 推理 性能比较 OPT 13B 推理 性能比较 ...
自动发现可提供良好训练速度的最佳 DeepSpeed 配置
本教程将帮助您开始在 Azure 上使用 DeepSpeed。
使用 DeepSpeed 训练您的第一个模型!
记录所有 DeepSpeed 通信调用
注意!2022 年 12 月 12 日,我们发布了 DeepSpeed 数据效率库,它提供了更通用的课程学习支持。这个旧版课程学习...
什么是 DeepSpeed 数据效率:DeepSpeed 数据效率是一个专门构建的库,旨在更好地利用数据、提高训练效率并改进...
本教程将展示如何使用 DeepNVMe 进行持久存储与驻留在主机或设备内存中的张量之间的数据传输。DeepNVMe 改进了...
Domino 实现了张量并行训练中计算背后几乎完全的通信隐藏。请在 DeepSpeedExample 仓库中找到我们的 Domino 教程。
在本教程中,我们将介绍如何启用 DeepSpeed-Ulysses。DeepSpeed-Ulysses 是一种简单但高效的通信和内存机制,用于序列...
1. 什么是 DS4Sci_EvoformerAttention DS4Sci_EvoformerAttention 是一个内核集合,旨在将 Evoformer 计算扩展到更大数量的序列...
衡量模型的参数、延迟和浮点运算
使用 DeepSpeed 训练您的第一个 GAN 模型!
DeepSpeed 初步
DeepSpeed-Inference v2 已发布,它被称为 DeepSpeed-FastGen!为了获得最佳性能、最新功能和最新模型支持,请参阅我们的 DeepS...
本教程展示了如何在 PyTorch 中执行学习率范围测试。
如果您尚未阅读,我们建议您在开始本教程之前,先通读“入门”指南。
混合精度 ZeRO++ (MixZ++) 是一组基于 ZeRO 和 ZeRO++ 的优化策略,旨在提高大型模型训练的效率并减少内存使用...
DeepSpeed-MoE 推理在密集模型的推理优化(DeepSpeed-Inference 博客文章)基础上引入了几个重要功能。它包含了...
在本教程中,我们将介绍如何将 DeepSpeed 混合专家 (MoE) 应用于 NLG 模型,这可将训练成本降低 5 倍,并减少 MoE 模...
DeepSpeed v0.5 引入了对训练混合专家 (MoE) 模型的新支持。MoE 模型是一类新兴的稀疏激活模型,它们具有...
什么是 DeepSpeed 压缩:DeepSpeed 压缩是一个专门构建的库,旨在方便研究人员和实践者压缩模型,同时...
实时监控您的模型训练指标并记录以供未来分析
本教程展示了如何在 PyTorch 中实现学习率和动量的 1-Cycle 调度。
注意:在 2022 年 3 月 7 日,我们发布了 0/1 Adam,这是一种新的通信高效 Adam 优化器,部分遵循 1-bit Adam 的设计。与...
注意!1) 基于 NCCL 的实现需要 PyTorch >= 1.8(当您有 64 个或更多 GPU 时,NCCL >= 2.8.3)。详见下文。2) 尽管 1...
DeepSpeed v0.3 包含了对流水线并行的新支持!流水线并行提高了深度学习训练的内存和计算效率...
在本教程中,我们将介绍 DeepSpeed 中的渐进层丢弃 (PLD) 并提供如何使用 PLD 的示例。PLD 允许训练 Tra...
本教程描述了如何将 PyTorch 分析器与 DeepSpeed 结合使用。
在本教程中,我们将介绍如何使用 DeepSpeed 稀疏注意力 (SA) 及其构建块内核。使用 SA 最简单的方法是通过 DeepSpeed 启动...
本教程展示了如何启用 DeepSpeed transformer 内核并设置其不同的配置参数。
DeepSpeed Ulysses-Offload 是一个基于 ZeRO 和 DeepSpeed Ulysses 构建的用于长上下文 Transformer 模型训练的分块和卸载系统。它...
DeepSpeed 通用检查点功能是一个强大的工具,可以高效灵活地保存和加载模型检查点,从而...
ZeRO-3 Offload 包含我们新发布的 ZeRO-Infinity 中的部分功能。阅读我们的 ZeRO-Infinity 博客了解更多信息!
注意!1) 基于 NCCL 的实现需要 PyTorch >= 1.8(当您有 64 个或更多 GPU 时,NCCL >= 2.8.3)。详见下文。2) 尽管 0...
ZeRO++ 是一个基于 ZeRO 构建的通信优化策略系统,旨在为大型模型训练提供无与伦比的效率,无论规模如何...