DeepSpeed-FastGen: MIIとDeepSpeed-InferenceによるLLMのための高速なテキスト生成 Permalink
title: “ZeRO-Inference: 20X faster inference through weight quantization and KV cache offloading” excerpt: “” link: https://github.com/microsoft/DeepSpeedExa...
分区感知 ZeRO,通信时间减少高达 2 倍!
DeepSpeed 用于训练世界上最大的语言模型。