Day 29 · LLM 推理基础
进入 LLM 推理 Infra:理解 prefill 与 decode 的阶段差异、KV Cache 为什么是显存大头、吞吐/延迟指标如何拆解,并写出一个最小 generation loop。
进入 LLM 推理 Infra:理解 prefill 与 decode 的阶段差异、KV Cache 为什么是显存大头、吞吐/延迟指标如何拆解,并写出一个最小 generation loop。
学习 PagedAttention 与 vLLM 的核心机制:为什么 KV Cache 会浪费显存,如何用 block table 管理逻辑块到物理块的映射,copy-on-write 如何支撑并行采样和 beam search,以及这些机制如何服务高吞吐 LLM serving。