Day 33 · Continuous Batching
学习 LLM 推理服务中的 Continuous Batching:理解静态 batching 与 in-flight batching 的差异,prefill/decode 如何混排,以及 TGI、vLLM、SGLang 调度器在吞吐、TTFT、TPOT 与公平性上的取舍。
学习 LLM 推理服务中的 Continuous Batching:理解静态 batching 与 in-flight batching 的差异,prefill/decode 如何混排,以及 TGI、vLLM、SGLang 调度器在吞吐、TTFT、TPOT 与公平性上的取舍。