推理概览与功能

DeepSpeed-Inference v2 已发布，命名为 DeepSpeed-FastGen！为获得最佳性能、最新功能和最新模型支持，请参阅我们的 DeepSpeed-FastGen 发布博客！

DeepSpeed-Inference 引入了多项功能，可高效地服务基于 Transformer 的 PyTorch 模型。它支持模型并行 (MP)，以适应否则无法装入 GPU 内存的大型模型。即使对于较小的模型，MP 也可以用于降低推理延迟。为了进一步降低延迟和成本，我们引入了推理定制内核。最后，我们提出了一种名为 MoQ 的新型模型量化方法，以同时缩小模型并降低生产中的推理成本。有关 DeepSpeed 中推理相关优化的更多详细信息，请参阅我们的博客文章。

DeepSpeed 为使用 DeepSpeed、Megatron 和 HuggingFace 训练的兼容 Transformer 模型提供无缝推理模式，这意味着我们不需要在模型侧进行任何更改，例如导出模型或从您训练的检查点创建不同的检查点。要在多 GPU 上对兼容模型运行推理，请提供模型并行度以及检查点信息或已从检查点加载的模型，DeepSpeed 将处理其余部分。它将根据需要自动分区模型，将兼容的高性能内核注入您的模型并管理 GPU 间通信。有关兼容模型的列表，请参阅此处。

要开始使用 DeepSpeed-Inference，请查看我们的教程。