博客


ZeRO 推理

标题:“ZeRO-Inference:通过权重 W 量化和 KV 缓存卸载实现 20 倍更快的推理” 摘要:“” 链接:https://github.com/deepspeedai/DeepSpeedE...