PagedAttention | 安橙的博客

Day 31 · PagedAttention & vLLM

学习 PagedAttention 与 vLLM 的核心机制:为什么 KV Cache 会浪费显存,如何用 block table 管理逻辑块到物理块的映射,copy-on-write 如何支撑并行采样和 beam search,以及这些机制如何服务高吞吐 LLM serving。

动手部署一个 7B 模型到 vLLM,开启 OpenAI 兼容 API,学习 –max-num-seqs 与 –gpu-memory-utilization 的调参方法,并建立推理服务压测与排错流程。