自动调优:自动发现可实现良好训练速度的最佳 DeepSpeed 配置

我们引入了一项名为自动调优(Autotuning)的新功能,可自动发现能提供良好训练速度的最佳 DeepSpeed 配置。模型训练中的一个痛点是需要找出与性能相关的良好配置,例如微批次大小(micro-batch size),以充分利用硬件并实现高吞吐量。这种配置探索过程通常是手动完成的,但由于模型训练会重复多次,并且从使用良好配置中受益,因此这一过程非常重要。手动调优过程不仅耗时,而且结果还依赖于硬件。这意味着在一种硬件上表现良好的配置在另一种不同的硬件上可能不是最佳的。因此,用户必须再次手动调优配置。使用 DeepSpeed 时,有更多可能影响训练速度的配置参数,这使得手动调优配置变得更加繁琐。

DeepSpeed 自动调优器(Autotuner)缓解了这一痛点,并自动发现能提供良好训练速度的最佳 DeepSpeed 配置。它不仅减少了用户在调优上花费的时间和资源,还能发现比手动调优方法更好的配置。DeepSpeedExamples 将展示自动调优在不同模型上的有效性。

更新: