Day 34 · SGLang & RadixAttention
学习 SGLang 推理框架与 RadixAttention:理解前缀缓存、共享 prefix 的请求调度、Radix Tree 如何复用 KV Cache,并动手用同一个 system prompt 发多请求观察缓存命中。
学习 SGLang 推理框架与 RadixAttention:理解前缀缓存、共享 prefix 的请求调度、Radix Tree 如何复用 KV Cache,并动手用同一个 system prompt 发多请求观察缓存命中。
学习 LLM 推理中的权重量化:理解 INT8 / INT4、per-channel / group-wise scale、GPTQ 与 AWQ 的核心思想,并用 AutoGPTQ 或 llama.cpp 完成一次模型量化与评估。
对比 OpenAI Responses / Chat Completions 与 Anthropic Messages API 的工具定义、模型请求、工具调用结果回传和多轮执行循环。
面向 Codex 桌面端用户的 21 天学习路线:覆盖提示、项目规则、权限、审查、插件、MCP、浏览器验证、自动化和子代理。
LLM 开放平台 Go 后端 30 天提效与进阶路线 Day 01:整理需求文档、接口文档、日志、监控、数据库、代码仓库 6 个入口,建立日常排查和交付工作台。
面向技术一般的 LLM 开放平台 Go 后端程序员:用 30 天建立工作提效系统,补齐 Go 后端、LLM API 网关、流式调用、稳定性、安全与影响力能力。
进入 PyTorch 2.x 编译器栈: TorchDynamo 如何从 Python 代码捕获 FX 图, guards 如何决定复用/重编译/fallback, Inductor 如何融合算子并生成 Triton/C++ kernel;最后对一个小模型做 eager vs compile benchmark。
拆开混合精度训练:FP32 / TF32 / FP16 / BF16 / FP8 的数值范围、精度与溢出风险;理解 torch.amp.autocast 的算子选择、GradScaler 的动态 loss scaling,并跑通一个可对比的 AMP benchmark。
拆开 PyTorch 的 caching allocator:Segment / Block 两级结构、small/large pool 分裂、stream 池隔离;掌握 memory_summary / memory_snapshot 工具链,学会 OOM 排查的标准流程,并理解 expandable_segments 如何根治碎片化。
派分身去干活——把开放式探索、独立评审、批量重构交给 subagent 在隔离上下文里跑;用 .claude/agents/ 把团队的工种沉淀成可复用资产;用 Git worktree 让多个 agent 在不同分支上同时改文件不会打架。一个任务,几只手并行。