推理概述和功能

DeepSpeed-Inference v2 现已推出,名为 DeepSpeed-FastGen!如需获得最佳性能、最新功能和最新模型支持,请参阅我们的 DeepSpeed-FastGen 发布博客

DeepSpeed-Inference 引入了多项功能,以高效地服务基于 Transformer 的 PyTorch 模型。它支持模型并行 (MP),以适应否则无法容纳在 GPU 内存中的大型模型。即使对于较小的模型,MP 也可用于降低推理延迟。为了进一步降低延迟和成本,我们引入了针对推理定制的内核。最后,我们提出了一种新的模型量化方法,称为 MoQ,用于缩减模型并降低生产环境中的推理成本。有关 DeepSpeed 中与推理相关的优化的更多详细信息,请参阅我们的 博客文章.

DeepSpeed 为使用 DeepSpeed、Megatron 和 HuggingFace 训练的兼容基于 Transformer 的模型提供无缝推理模式,这意味着我们不需要在建模方面进行任何更改,例如导出模型或从训练好的检查点创建不同的检查点。要在多 GPU 上对兼容模型进行推理,请提供模型并行度和检查点信息或已从检查点加载的模型,DeepSpeed 将完成剩下的工作。它将根据需要自动对模型进行分区,将兼容的高性能内核注入您的模型,并管理跨 GPU 的通信。有关兼容模型的列表,请参阅 此处.

要开始使用 DeepSpeed-Inference,请查看我们的 教程.