AI Infra 60 天系统学习路线

M ·

阶段总览

OVERVIEW

FIG · 60 天路线总览:从 GPU 编程基础到训推一体平台

P0 ·

基础与 GPU 编程入门

DAY 1 – 7

搭建开发环境、理解 GPU 硬件架构、写出第一个 CUDA kernel。这一周结束时你应该能看懂 nvidia-smi 的每一行输出，并且手写过 vector add 和 tiled GEMM。

DAY 01 AI Infra 全景 & 学习环境从 prompt 到 GPU kernel 的完整路径

DAY 02 Linux / 容器基础回顾 cgroups · namespaces · Docker · nvidia-container-toolkit

DAY 03 GPU 硬件与体系结构 SM · Warp · Tensor Core · HBM · L2

DAY 04
CUDA 编程入门 (1)
kernel 启动 · grid/block/thread · vector add · naive GEMM

DAY 05
CUDA 编程入门 (2)
shared memory tiling · bank conflict · tiled GEMM

DAY 06 Profiling 工具链 nsys · ncu · py-spy · torch.profiler

DAY 07 周复盘 + 网络/存储基础 RDMA · NCCL · NVLink vs PCIe

P1 ·

深度学习框架内部机制

DAY 8 – 14

打开 PyTorch 的黑盒——理解 Tensor/Autograd/Dispatcher 的调度路径，掌握显存管理与混合精度，手写 mini-autograd，最终理解 torch.compile 为什么能加速。

DAY 08 PyTorch 核心抽象 Tensor · Storage · Dispatcher · Autograd Engine

DAY 09
Autograd 原理
计算图 · 反向传播 · 手写 mini-autograd

DAY 10 算子与后端 ATen · c10 · CUDA kernel 注册流程

DAY 11 显存管理 caching allocator · OOM 排查 · 碎片化

DAY 12 混合精度与 AMP FP32/FP16/BF16/FP8 · autocast · GradScaler

DAY 13
torch.compile / TorchDynamo / Inductor
图捕获 · guards · eager vs compile benchmark

DAY 14 周复盘 + 算子融合 FlashAttention 论文 · IO-aware kernel

P2 ·

分布式训练 Infra

DAY 15 – 28

这是最重的两周——从单卡到多机，掌握 DP/TP/PP/ZeRO 四大并行范式，跑通 Megatron-LM 和 DeepSpeed，理解 MFU/HFU 的计算与优化。

DAY 15 分布式基础 rank/world_size · torchrun · AllReduce · DDP MNIST

DAY 16 NCCL 深入 ring/tree 算法 · NCCL_DEBUG 日志

DAY 17 数据并行 DP/DDP 梯度同步 · bucket · overlap

DAY 18
ZeRO 系列 (DeepSpeed)
ZeRO-1/2/3 切分 · 论文精读

DAY 19
Tensor Parallel
Megatron 列并行/行并行 · MLP/Attention 切分图

DAY 20
Pipeline Parallel
GPipe · 1F1B · Interleaved 1F1B · bubble 计算

DAY 21 Sequence / Context Parallel 长序列训练 · Ring Attention

DAY 22
3D/4D 并行实战
Megatron-LM 单机多卡训练 GPT

DAY 23 DeepSpeed 实战 ZeRO-3 + Offload · ds_config.json

DAY 24 Checkpoint 与容错 DCP · 异步保存 · elastic training

DAY 25 数据 Pipeline WebDataset · Mosaic Streaming · prefetch

DAY 26 算子层加速 FlashAttention v2/v3 · xFormers · benchmark MFU

DAY 27 训练性能分析 MFU/HFU · nsys 分析 compute/comm/bubble

DAY 28 周复盘 + 小项目多卡训 125M GPT · ZeRO-3 vs TP+PP 取舍笔记

P3 ·

推理 Infra 与服务化

DAY 29 – 42

从训练转向推理——理解 prefill/decode 两阶段差异，掌握 PagedAttention、Continuous Batching、量化、Speculative Decoding，最终部署一个生产级 vLLM 推理服务。

DAY 29 LLM 推理基础 prefill vs decode · KV Cache

DAY 30 解码算法 greedy · beam · top-k/p · speculative decoding

DAY 31
PagedAttention & vLLM
论文精读 · block table · copy-on-write

DAY 32
vLLM 实战
部署 7B 模型 · OpenAI 兼容 API

DAY 33 Continuous Batching 静态 vs in-flight batching · TGI/vLLM/SGLang 对比

DAY 34 SGLang & RadixAttention 前缀缓存 · 共享 prefix 调度

DAY 35 量化 (1)：权重量化 INT8/INT4 · GPTQ · AWQ

DAY 36 量化 (2)：KV Cache 与激活 FP8 KV · SmoothQuant · per-channel/per-token

DAY 37 推理引擎对比 TRT-LLM · vLLM · SGLang · lmdeploy · llama.cpp

DAY 38 Speculative / Medusa / EAGLE 草稿模型 + 验证 · tree attention

DAY 39 长上下文推理 chunked prefill · prefix caching · disaggregated

DAY 40 Serving 层负载均衡 · SSE · prefix-aware routing

DAY 41 性能压测 TTFT · TPOT · throughput · p50/p99

DAY 42 周复盘 + 推理小项目部署 7B OpenAI API + 性能报告

P4 ·

平台化 — 调度、存储、可观测

DAY 43 – 53

把训练和推理搬到 Kubernetes 上——学习 GPU 调度、数据/模型存储加速、DCGM 监控、故障排查，理解生产环境中 AI Infra 的运维复杂性。

DAY 43 Kubernetes 基础回顾 Pod · Deployment · nvidia-device-plugin

DAY 44 GPU 调度 gang scheduling · topology-aware · MIG · MPS

DAY 45
训练任务编排
Kubeflow · Ray · SkyPilot

DAY 46 推理服务编排 KServe · vLLM Production Stack · HPA

DAY 47 存储 (1) — 训练数据 S3/OSS · JuiceFS · Fluid · checkpoint 加速

DAY 48 存储 (2) — 模型分发 P2P · 镜像懒加载 · 大模型加载优化

DAY 49 网络 RoCE · NCCL 拓扑探测 · IB 配置

DAY 50 可观测 (1)：Metrics DCGM Exporter · Prometheus · Grafana

DAY 51 可观测 (2)：Tracing & Logs OpenTelemetry · 全链路 trace · loss spike 排查

DAY 52 故障与稳定性 Xid 错误 · ECC · 慢节点 · 自动重启

DAY 53 周复盘 + 平台小练习 minikube 跑 vLLM + Prometheus

P5 ·

综合项目 + 论文精读 + 复盘

DAY 54 – 60

最后一周把所有学到的串起来——搭一个迷你 LLM 平台，精读 2 篇核心论文，整理 60 天笔记，选定深耕方向。

DAY 54
综合项目设计
训练 + 推理 + 监控 = 迷你 LLM 平台

DAY 55
项目：训练 + Checkpoint
DeepSpeed/Megatron 微调 1–7B

DAY 56
项目：量化 + 推理部署
模型转换 → vLLM 部署

DAY 57
项目：监控 + 压测
Prometheus 接入 + 性能报告

DAY 58 论文精读 (1) Megatron-LM / ZeRO / FlashAttention

DAY 59 论文精读 (2) vLLM (PagedAttention) / SGLang (RadixAttention)

DAY 60 总复盘 & 后续路线整理 wiki · 选定深耕方向

DIRECTION 01

训练框架研发

Megatron / DeepSpeed 二次开发，设计新的并行策略或优化通信。

DIRECTION 02

推理引擎研发

为 vLLM / TRT-LLM 贡献，优化调度器或实现新的量化方案。

DIRECTION 03

编译器

Triton / TVM / MLIR，从算子层面优化 GPU 计算效率。

DIRECTION 04

平台与调度

K8s + 自研 GPU 调度器，解决大规模集群资源利用率问题。

DIRECTION 05

大规模集群运维

万卡稳定性、故障自愈、性能劣化检测、成本优化。

R ·

关键资源清单

RESOURCES

书 / 教程

OFFICIAL

CUDA C Programming Guide

NVIDIA 官方 CUDA 编程教材，GPU 编程必读。

TEXTBOOK

Programming Massively Parallel Processors (PMPP)

GPU 并行编程的经典教材，覆盖算法到优化。

BLOG

ezyang 的 PyTorch internals

深入 PyTorch 内部机制的系列博文，理解 Dispatcher 和 Autograd 的最佳资料。

GUIDE

HuggingFace Ultra-Scale Playbook

大规模分布式训练的实践指南，从硬件选型到性能调优。

必读论文 Top 10

Megatron-LM — 大模型并行训练的基石，定义了 TP/PP 的标准做法
ZeRO / ZeRO-Infinity — 显存优化三级切分，DeepSpeed 的核心
GPipe / PipeDream — Pipeline Parallelism 的两大流派
FlashAttention v1 / v2 — IO-aware attention kernel，改变了 Transformer 训练效率
PagedAttention (vLLM) — KV Cache 分页管理，推理引擎的里程碑
RadixAttention (SGLang) — Radix tree 前缀缓存，优化多请求共享前缀
GPTQ / AWQ — 权重量化的两条主流路线
Speculative Decoding (Google) — 用小模型草稿 + 大模型验证加速生成
Ring Attention — 序列并行处理超长上下文
GShard / Switch Transformer — Mixture-of-Experts 的分布式实现

代码仓库（边读边跑）

NVIDIA/Megatron-LM microsoft/DeepSpeed vllm-project/vllm sgl-project/sglang Dao-AILab/flash-attention pytorch/pytorch

重点目录：torch/distributed · aten · vllm/engine · megatron/core

社区

PyTorch dev-discuss vLLM / SGLang Slack 知乎「AI Infra」话题 HuggingFace 博客

★ ·

学习方法建议

5 PRINCIPLES

每天写笔记

用 Obsidian / Logseq 建一个 AI-Infra knowledge graph，让知识互相链接。

代码先跑通再改

永远先 git clone && 跑 example，再读源码。不要从论文开始。

画图

分布式、并行、调度类内容必须自己画一遍。手绘 > 不画。

Benchmark 习惯

任何"优化"都要有 before/after 数据。没有数据的优化是猜测。

GPU 资源

本地没卡可用 RunPod / Vast.ai / AutoDL 按需租 A100/H100。