推理概览与功能

DeepSpeed-Inference v2 已发布,命名为 DeepSpeed-FastGen!为获得最佳性能、最新功能和最新模型支持,请参阅我们的 DeepSpeed-FastGen 发布博客

DeepSpeed-Inference 引入了多项功能,可高效地服务基于 Transformer 的 PyTorch 模型。它支持模型并行 (MP),以适应否则无法装入 GPU 内存的大型模型。即使对于较小的模型,MP 也可以用于降低推理延迟。为了进一步降低延迟和成本,我们引入了推理定制内核。最后,我们提出了一种名为 MoQ 的新型模型量化方法,以同时缩小模型并降低生产中的推理成本。有关 DeepSpeed 中推理相关优化的更多详细信息,请参阅我们的 博客文章

DeepSpeed 为使用 DeepSpeed、Megatron 和 HuggingFace 训练的兼容 Transformer 模型提供无缝推理模式,这意味着我们不需要在模型侧进行任何更改,例如导出模型或从您训练的检查点创建不同的检查点。要在多 GPU 上对兼容模型运行推理,请提供模型并行度以及检查点信息或已从检查点加载的模型,DeepSpeed 将处理其余部分。它将根据需要自动分区模型,将兼容的高性能内核注入您的模型并管理 GPU 间通信。有关兼容模型的列表,请参阅此处

要开始使用 DeepSpeed-Inference,请查看我们的教程