Day 24 · Checkpoint 与容错

学习分布式训练中的 checkpoint 与容错:理解 DCP 分片保存、异步保存、训练中断恢复、torchrun elastic restart,并建立可恢复训练的状态清单与演练流程。

Day 25 · 数据 Pipeline

进入训练数据通路:理解 WebDataset、Mosaic Streaming 与自定义 IterableDataset 的设计取舍;调优 DataLoader 的 num_workers、prefetch_factor、pin_memory、persistent_workers 与 shared memory,定位 GPU starvation。

Day 26 · 算子层加速

进入 Transformer 算子层加速:理解 FlashAttention v2/v3、PyTorch SDPA、xFormers 与 Apex Fused Kernels 的适用边界,动手替换 attention,并用 TFLOPS / MFU 判断优化是否真的生效。

Day 27 · 训练性能分析

学习训练性能分析的最小闭环:计算 MFU / HFU,用 Nsight Systems 抓一段训练 step,通过 NVTX、CUDA kernel、NCCL timeline 识别 compute、communication 与 pipeline bubble。

Day 28 · 周复盘 + 小项目

阶段 2 收官:复盘分布式训练 Infra 的 NCCL、DDP、ZeRO、TP、PP、SP/CP、DeepSpeed、checkpoint、data pipeline、算子加速与 profiling;在 2 卡或云上 8 卡训练一个约 125M GPT,记录 MFU,并完成 ZeRO-3 vs TP+PP 的硬件取舍笔记。

Day 29 · LLM 推理基础

进入 LLM 推理 Infra:理解 prefill 与 decode 的阶段差异、KV Cache 为什么是显存大头、吞吐/延迟指标如何拆解,并写出一个最小 generation loop。

Day 30 · 解码算法

进入 LLM 解码策略:理解 greedy、beam search、temperature、top-k、top-p 的采样语义与服务化影响;掌握 speculative decoding 的 draft/verify 思想,并用 Transformers 与 vLLM 参数做小型实验。

Day 31 · PagedAttention & vLLM

学习 PagedAttention 与 vLLM 的核心机制:为什么 KV Cache 会浪费显存,如何用 block table 管理逻辑块到物理块的映射,copy-on-write 如何支撑并行采样和 beam search,以及这些机制如何服务高吞吐 LLM serving。

Day 33 · Continuous Batching

学习 LLM 推理服务中的 Continuous Batching:理解静态 batching 与 in-flight batching 的差异,prefill/decode 如何混排,以及 TGI、vLLM、SGLang 调度器在吞吐、TTFT、TPOT 与公平性上的取舍。

VSCode 最实用技巧与效率工具清单

一份面向日常开发的 VSCode 实用技巧与效率工具清单:快捷键、搜索替换、多光标、Snippets、工作区、终端、Tasks、Git、Profiles,以及常用扩展组合与可复制配置。