Day 18 · ZeRO 系列(DeepSpeed)
理解 ZeRO-1/2/3 分别切分 optimizer state、gradient 和 parameter 的方式,读 ZeRO 论文主线,并用 DeepSpeed 配置把 DDP 的复制显存一步步拆掉。
理解 ZeRO-1/2/3 分别切分 optimizer state、gradient 和 parameter 的方式,读 ZeRO 论文主线,并用 DeepSpeed 配置把 DDP 的复制显存一步步拆掉。
实战 DeepSpeed ZeRO-3 + Offload:理解参数、梯度、优化器状态如何分片与换入换出,拆解 ds_config.json 的 zero_optimization、offload_param、offload_optimizer、bucket、overlap 与 NVMe 参数,并给出可运行的训练配置模板。
阶段 2 收官:复盘分布式训练 Infra 的 NCCL、DDP、ZeRO、TP、PP、SP/CP、DeepSpeed、checkpoint、data pipeline、算子加速与 profiling;在 2 卡或云上 8 卡训练一个约 125M GPT,记录 MFU,并完成 ZeRO-3 vs TP+PP 的硬件取舍笔记。