教程 - DeepSpeed - DeepSpeed 深度学习库

DeepSpeed 混合量化 (MoQ)

DeepSpeed 引入了对使用量化进行模型压缩的新支持，称为混合量化 (MoQ)。MoQ 基于 QAT (量化...) 设计。

DeepSpeed 加速器抽象接口

目录目录简介编写与加速器无关的模型移植加速器运行时调用移植加速器设备名称移...

DeepSpeed 加速器设置指南

目录目录简介英特尔架构 (IA) CPU 英特尔 XPU 华为昇腾 NPU 英特尔 Gaudi

安装详情

开始使用 DeepSpeed 最快捷的方式是通过 pip，这将安装 DeepSpeed 的最新版本，该版本不与特定的 PyTorch 或 CUDA 版...

HuggingFace 模型的自动张量并行

目录简介示例脚本启动 T5 11B 推理性能比较 OPT 13B 推理性能比较 ...

自动调优

自动发现可提供良好训练速度的最佳 DeepSpeed 配置

在 Azure 上开始使用 DeepSpeed

本教程将帮助您开始在 Azure 上使用 DeepSpeed。

BingBertSQuAD 微调

BERT 预训练

CIFAR-10 教程

使用 DeepSpeed 训练您的第一个模型！

通信日志记录

记录所有 DeepSpeed 通信调用

课程学习：一种高效稳定的十亿级 GPT 模型预训练的正则化方法

注意！2022 年 12 月 12 日，我们发布了 DeepSpeed 数据效率库，它提供了更通用的课程学习支持。这个旧版课程学习...

DeepSpeed 数据效率：一个可组合的库，旨在更好地利用数据、提高训练效率并改善模型质量

什么是 DeepSpeed 数据效率：DeepSpeed 数据效率是一个专门构建的库，旨在更好地利用数据、提高训练效率并改进...

DeepNVMe

本教程将展示如何使用 DeepNVMe 进行持久存储与驻留在主机或设备内存中的张量之间的数据传输。DeepNVMe 改进了...

Domino

Domino 实现了张量并行训练中计算背后几乎完全的通信隐藏。请在 DeepSpeedExample 仓库中找到我们的 Domino 教程。

使用 DeepSpeed-Ulysses 训练超长序列 Transformer 模型的入门指南

在本教程中，我们将介绍如何启用 DeepSpeed-Ulysses。DeepSpeed-Ulysses 是一种简单但高效的通信和内存机制，用于序列...

DS4Sci_EvoformerAttention 消除了扩展以 Evoformer 为中心的结构生物学模型时的内存爆炸问题

1. 什么是 DS4Sci_EvoformerAttention DS4Sci_EvoformerAttention 是一个内核集合，旨在将 Evoformer 计算扩展到更大数量的序列...

浮点运算分析器

衡量模型的参数、延迟和浮点运算

DCGAN 教程

使用 DeepSpeed 训练您的第一个 GAN 模型！

入门

DeepSpeed 初步

使用 DeepSpeed 进行基于 Transformer 模型推理的入门指南

DeepSpeed-Inference v2 已发布，它被称为 DeepSpeed-FastGen！为了获得最佳性能、最新功能和最新模型支持，请参阅我们的 DeepS...

使用 DeepSpeed 训练您的大型模型

概述

学习率范围测试

本教程展示了如何在 PyTorch 中执行学习率范围测试。

Megatron-LM GPT2

如果您尚未阅读，我们建议您在开始本教程之前，先通读“入门”指南。

混合精度 ZeRO++

混合精度 ZeRO++ (MixZ++) 是一组基于 ZeRO 和 ZeRO++ 的优化策略，旨在提高大型模型训练的效率并减少内存使用...

使用 DeepSpeed-MoE 进行大规模 MoE 模型推理的入门指南

DeepSpeed-MoE 推理在密集模型的推理优化（DeepSpeed-Inference 博客文章）基础上引入了几个重要功能。它包含了...

用于 NLG 模型的混合专家

在本教程中，我们将介绍如何将 DeepSpeed 混合专家 (MoE) 应用于 NLG 模型，这可将训练成本降低 5 倍，并减少 MoE 模...

混合专家

DeepSpeed v0.5 引入了对训练混合专家 (MoE) 模型的新支持。MoE 模型是一类新兴的稀疏激活模型，它们具有...

DeepSpeed 模型压缩库

什么是 DeepSpeed 压缩：DeepSpeed 压缩是一个专门构建的库，旨在方便研究人员和实践者压缩模型，同时...

监控

实时监控您的模型训练指标并记录以供未来分析

1-Cycle 调度

本教程展示了如何在 PyTorch 中实现学习率和动量的 1-Cycle 调度。

1-bit Adam：通信量减少高达 5 倍，训练速度提高高达 3.4 倍

注意：在 2022 年 3 月 7 日，我们发布了 0/1 Adam，这是一种新的通信高效 Adam 优化器，部分遵循 1-bit Adam 的设计。与...

1-bit LAMB：通信高效大规模大批次训练，兼具 LAMB 的收敛速度

注意！1) 基于 NCCL 的实现需要 PyTorch >= 1.8（当您有 64 个或更多 GPU 时，NCCL >= 2.8.3）。详见下文。2) 尽管 1...

流水线并行

DeepSpeed v0.3 包含了对流水线并行的新支持！流水线并行提高了深度学习训练的内存和计算效率...

使用渐进层丢弃加速基于 Transformer 的语言模型训练

在本教程中，我们将介绍 DeepSpeed 中的渐进层丢弃 (PLD) 并提供如何使用 PLD 的示例。PLD 允许训练 Tra...

将 PyTorch 分析器与 DeepSpeed 结合用于性能调试

本教程描述了如何将 PyTorch 分析器与 DeepSpeed 结合使用。

DeepSpeed 稀疏注意力

在本教程中，我们将介绍如何使用 DeepSpeed 稀疏注意力 (SA) 及其构建块内核。使用 SA 最简单的方法是通过 DeepSpeed 启动...

DeepSpeed Transformer 内核

本教程展示了如何启用 DeepSpeed transformer 内核并设置其不同的配置参数。

DeepSpeed Ulysses-Offload

DeepSpeed Ulysses-Offload 是一个基于 ZeRO 和 DeepSpeed Ulysses 构建的用于长上下文 Transformer 模型训练的分块和卸载系统。它...

DeepSpeed 通用检查点：实用指南

DeepSpeed 通用检查点功能是一个强大的工具，可以高效灵活地保存和加载模型检查点，从而...

ZeRO-卸载

ZeRO-3 Offload 包含我们新发布的 ZeRO-Infinity 中的部分功能。阅读我们的 ZeRO-Infinity 博客了解更多信息！

通过 0/1 Adam 最大化大规模训练的通信效率

注意！1) 基于 NCCL 的实现需要 PyTorch >= 1.8（当您有 64 个或更多 GPU 时，NCCL >= 2.8.3）。详见下文。2) 尽管 0...

零冗余优化器

ZeRO++

ZeRO++ 是一个基于 ZeRO 构建的通信优化策略系统，旨在为大型模型训练提供无与伦比的效率，无论规模如何...