教程


DeepSpeed 混合量化 (MoQ)

DeepSpeed 引入了对使用量化进行模型压缩的新支持,称为混合量化 (MoQ)。MoQ 基于 QAT (量化...) 设计。

安装详情

开始使用 DeepSpeed 最快捷的方式是通过 pip,这将安装 DeepSpeed 的最新版本,该版本不与特定的 PyTorch 或 CUDA 版...

自动调优

自动发现可提供良好训练速度的最佳 DeepSpeed 配置

DeepNVMe

本教程将展示如何使用 DeepNVMe 进行持久存储与驻留在主机或设备内存中的张量之间的数据传输。DeepNVMe 改进了...

Domino

Domino 实现了张量并行训练中计算背后几乎完全的通信隐藏。请在 DeepSpeedExample 仓库中找到我们的 Domino 教程。

DCGAN 教程

使用 DeepSpeed 训练您的第一个 GAN 模型!

Megatron-LM GPT2

如果您尚未阅读,我们建议您在开始本教程之前,先通读“入门”指南。

混合精度 ZeRO++

混合精度 ZeRO++ (MixZ++) 是一组基于 ZeRO 和 ZeRO++ 的优化策略,旨在提高大型模型训练的效率并减少内存使用...

用于 NLG 模型的混合专家

在本教程中,我们将介绍如何将 DeepSpeed 混合专家 (MoE) 应用于 NLG 模型,这可将训练成本降低 5 倍,并减少 MoE 模...

混合专家

DeepSpeed v0.5 引入了对训练混合专家 (MoE) 模型的新支持。MoE 模型是一类新兴的稀疏激活模型,它们具有...

DeepSpeed 模型压缩库

什么是 DeepSpeed 压缩:DeepSpeed 压缩是一个专门构建的库,旨在方便研究人员和实践者压缩模型,同时...

监控

实时监控您的模型训练指标并记录以供未来分析

1-Cycle 调度

本教程展示了如何在 PyTorch 中实现学习率和动量的 1-Cycle 调度。

流水线并行

DeepSpeed v0.3 包含了对流水线并行的新支持!流水线并行提高了深度学习训练的内存和计算效率...

DeepSpeed 稀疏注意力

在本教程中,我们将介绍如何使用 DeepSpeed 稀疏注意力 (SA) 及其构建块内核。使用 SA 最简单的方法是通过 DeepSpeed 启动...

DeepSpeed Ulysses-Offload

DeepSpeed Ulysses-Offload 是一个基于 ZeRO 和 DeepSpeed Ulysses 构建的用于长上下文 Transformer 模型训练的分块和卸载系统。它...

ZeRO-卸载

ZeRO-3 Offload 包含我们新发布的 ZeRO-Infinity 中的部分功能。阅读我们的 ZeRO-Infinity 博客了解更多信息!

ZeRO++

ZeRO++ 是一个基于 ZeRO 构建的通信优化策略系统,旨在为大型模型训练提供无与伦比的效率,无论规模如何...