Day 14 · 周复盘 + 算子融合

Phase 1 收官:复盘 PyTorch 核心抽象、Autograd、算子后端、显存管理、AMP 与 torch.compile,再用 FlashAttention 拆开算子融合与 IO-aware kernel 的本质。

Day 26 · 算子层加速

进入 Transformer 算子层加速:理解 FlashAttention v2/v3、PyTorch SDPA、xFormers 与 Apex Fused Kernels 的适用边界,动手替换 attention,并用 TFLOPS / MFU 判断优化是否真的生效。

Day 27 · 训练性能分析

学习训练性能分析的最小闭环:计算 MFU / HFU,用 Nsight Systems 抓一段训练 step,通过 NVTX、CUDA kernel、NCCL timeline 识别 compute、communication 与 pipeline bubble。

Day 11 · 显存管理

拆开 PyTorch 的 caching allocator:Segment / Block 两级结构、small/large pool 分裂、stream 池隔离;掌握 memory_summary / memory_snapshot 工具链,学会 OOM 排查的标准流程,并理解 expandable_segments 如何根治碎片化。

Day 10 · 算子与后端

拆开 PyTorch 算子实现层:c10 是底座,ATen 是算子库,native_functions.yaml 是真理之源。从代码生成管线到 TORCH_LIBRARY 注册机制,跑通一个自定义 CUDA 算子。

Day 06 · Profiling 工具链

系统学习 GPU profiling 工具链:nsys 看系统级 timeline、ncu 做 kernel 深度分析、py-spy 抓 Python 热点、torch.profiler 串起训练全链路,建立先测量再优化的工程习惯。

Day 04 · CUDA 编程入门 (1)

从 Host 到 Device:理解 kernel 启动、Grid/Block/Thread 线程层级与 Global/Shared Memory 存储模型,动手实现 vector add 与 naive GEMM。

Day 05 · CUDA 编程入门 (2)

用 Shared Memory Tiling 优化矩阵乘:理解 bank conflict 与 coalesced access,实现 tiled GEMM 并用 Nsight Compute 分析性能瓶颈。

Day 03 · GPU 硬件与体系结构

拆解 GPU 微架构:从 SM、Warp 调度到 Tensor Core,理解 HBM-L2-SMEM 存储层级与算术强度,对比 A100/H100/H20 代际演进。

AI Infra 60 天系统学习路线

从 GPU 编程入门到 LLM 训推一体平台:覆盖 CUDA、PyTorch 内部机制、分布式训练、推理引擎、平台调度的全栈 60 天学习路线图。