FSDP：快速掌握Facebook如何实现深度学习分布式训练Offload

2024-01-17 04:45:47

FSDP简介
FSDP 是 Facebook 深度借鉴微软 ZeRO 之后提出的 PyTorch DDP 升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型，所以需要解决ZeRO-offload 技术中的通信开销问题，本文重点分析 FSDP是如何解决这个问题的。

FSDP是如何实现Offload

FSDP 提供了更加高效的 offload 实现，通过将梯度计算和参数更新分别放在不同的设备上，有效减少了通信开销。

基本原理

FSDP 使用了一种称为分层参数服务器 (HPS) 的架构。HPS 将模型参数存储在多个参数服务器上，并使用一种称为参数切分 (parameter sharding) 的技术将参数分解成更小的块，以便在不同的参数服务器之间进行分布。这样，梯度计算可以在本地完成，而参数更新则可以在参数服务器上完成。

实现细节

FSDP 使用了一种称为 FSDP包装器 (FSDP wrapper) 的技术来实现 offload。FSDP 包装器是一个特殊的 PyTorch 模块，它可以将任何 PyTorch 模型包装成一个 FSDP 模型。FSDP 模型具有与原始模型相同的功能，但它可以进行 offload。

FSDP 包装器通过重写模型的 forward 和 backward 方法来实现 offload。在 forward 方法中，FSDP 包装器将模型的参数复制到参数服务器上。在 backward 方法中，FSDP 包装器将梯度从参数服务器复制到本地，然后进行梯度计算。梯度计算完成后，FSDP 包装器将梯度复制回参数服务器，并由参数服务器进行参数更新。

注意事项

在使用 FSDP 时，需要注意以下几点：

FSDP 只支持 PyTorch。
FSDP 不支持所有的 PyTorch 模型。
FSDP 需要使用特殊的优化器和学习率调度器。
FSDP 在使用时可能会遇到一些问题，比如内存不足、通信开销过大等。

总结

FSDP 提供了一种高效的深度学习分布式训练offload实现，通过将梯度计算和参数更新分别放在不同的设备上，有效减少了通信开销。FSDP 使用了分层参数服务器 (HPS) 的架构和参数切分 (parameter sharding) 的技术来实现 offload。FSDP 使用 FSDP 包装器 (FSDP wrapper) 来实现 offload，FSDP 包装器重写了模型的 forward 和 backward 方法来实现 offload。在使用 FSDP 时，需要注意一些事项，比如 FSDP 只支持 PyTorch，FSDP 不支持所有的 PyTorch 模型，FSDP 需要使用特殊的优化器和学习率调度器等。