Megatron-LM on 安橙的博客

Megatron-LM on 安橙的博客https://blog.ans20xx.com/tags/megatron-lm/Recent content in Megatron-LM on 安橙的博客Hugo -- 0.163.3zhSat, 20 Jun 2026 00:00:00 +0000Day 19 · Tensor Parallelhttps://blog.ans20xx.com/posts/ai/day19/Sat, 20 Jun 2026 00:00:00 +0000https://blog.ans20xx.com/posts/ai/day19/深入 Megatron-LM Tensor Parallel:理解列并行与行并行 Linear 的矩阵切分、通信边界、MLP 和 Attention 的 TP 布局;手画 Transformer block 的张量切分图,看懂 tensor_model_parallel_size 如何影响显存、计算与通信。Day 22 · 3D / 4D 并行实战https://blog.ans20xx.com/posts/ai/day22/Sat, 20 Jun 2026 00:00:00 +0000https://blog.ans20xx.com/posts/ai/day22/把 Day19-21 的 TP、PP、DP、SP/CP 组合起来,在单机多卡上用 Megatron-LM 跑一个小 GPT,并通过调整 tensor-model-parallel-size 与 pipeline-model-parallel-size 理解并行维度的取舍。Day 28 · 周复盘 + 小项目https://blog.ans20xx.com/posts/ai/day28/Sat, 20 Jun 2026 00:00:00 +0000https://blog.ans20xx.com/posts/ai/day28/阶段 2 收官:复盘分布式训练 Infra 的 NCCL、DDP、ZeRO、TP、PP、SP/CP、DeepSpeed、checkpoint、data pipeline、算子加速与 profiling;在 2 卡或云上 8 卡训练一个约 125M GPT,记录 MFU,并完成 ZeRO-3 vs TP+PP 的硬件取舍笔记。