AI | 安橙的博客

Day 34 · SGLang & RadixAttention

学习 SGLang 推理框架与 RadixAttention:理解前缀缓存、共享 prefix 的请求调度、Radix Tree 如何复用 KV Cache,并动手用同一个 system prompt 发多请求观察缓存命中。

Day 35 · 量化 (1)：权重量化

学习 LLM 推理中的权重量化:理解 INT8 / INT4、per-channel / group-wise scale、GPTQ 与 AWQ 的核心思想,并用 AutoGPTQ 或 llama.cpp 完成一次模型量化与评估。

OpenAI 和 Anthropic 的工具调用格式

对比 OpenAI Responses / Chat Completions 与 Anthropic Messages API 的工具定义、模型请求、工具调用结果回传和多轮执行循环。

Codex 桌面端 21 天系统学习路线

面向 Codex 桌面端用户的 21 天学习路线：覆盖提示、项目规则、权限、审查、插件、MCP、浏览器验证、自动化和子代理。

Day 01 · LLM 开放平台 Go 后端建立工作台

LLM 开放平台 Go 后端 30 天提效与进阶路线 Day 01：整理需求文档、接口文档、日志、监控、数据库、代码仓库 6 个入口，建立日常排查和交付工作台。

LLM 开放平台 Go 后端 30 天提效与进阶路线

面向技术一般的 LLM 开放平台 Go 后端程序员：用 30 天建立工作提效系统，补齐 Go 后端、LLM API 网关、流式调用、稳定性、安全与影响力能力。

Day 13 · torch.compile / TorchDynamo / Inductor

进入 PyTorch 2.x 编译器栈: TorchDynamo 如何从 Python 代码捕获 FX 图, guards 如何决定复用/重编译/fallback, Inductor 如何融合算子并生成 Triton/C++ kernel;最后对一个小模型做 eager vs compile benchmark。

Day 12 · 混合精度与 AMP

拆开混合精度训练:FP32 / TF32 / FP16 / BF16 / FP8 的数值范围、精度与溢出风险;理解 torch.amp.autocast 的算子选择、GradScaler 的动态 loss scaling,并跑通一个可对比的 AMP benchmark。

Day 11 · 显存管理

拆开 PyTorch 的 caching allocator:Segment / Block 两级结构、small/large pool 分裂、stream 池隔离;掌握 memory_summary / memory_snapshot 工具链,学会 OOM 排查的标准流程,并理解 expandable_segments 如何根治碎片化。

Day 14 · Agent 与子代理 — 并行调度 · 自定义 agents · Worktree 隔离

派分身去干活——把开放式探索、独立评审、批量重构交给 subagent 在隔离上下文里跑;用 .claude/agents/ 把团队的工种沉淀成可复用资产;用 Git worktree 让多个 agent 在不同分支上同时改文件不会打架。一个任务,几只手并行。