Day 19 · Tensor Parallel
深入 Megatron-LM Tensor Parallel:理解列并行与行并行 Linear 的矩阵切分、通信边界、MLP 和 Attention 的 TP 布局;手画 Transformer block 的张量切分图,看懂 tensor_model_parallel_size 如何影响显存、计算与通信。
深入 Megatron-LM Tensor Parallel:理解列并行与行并行 Linear 的矩阵切分、通信边界、MLP 和 Attention 的 TP 布局;手画 Transformer block 的张量切分图,看懂 tensor_model_parallel_size 如何影响显存、计算与通信。
进入 LLM 推理 Infra:理解 prefill 与 decode 的阶段差异、KV Cache 为什么是显存大头、吞吐/延迟指标如何拆解,并写出一个最小 generation loop。
实验元数据 (Meta Data) 实验编号/标题:Transformer 实验 ...