从向量空间到 Transformer 的四十天
适用于有大学数学基础、希望读懂 LLM 论文并能动手实现的学习者。 覆盖线性代数、微积分、概率论、信息论、优化算法、Transformer 数学六大板块。 节奏:每天 1–2 小时,前半段推公式,后半段写代码。 原则——直觉先行 → 公式验证 → 代码实现 → 论文对照。
阶段总览
线性代数
LLM 里的一切——词向量、注意力权重、参数矩阵——本质上都是线性代数。 这一周的目标是建立从向量到 SVD 的完整直觉,并用 NumPy 验证每一个概念。
微积分与反向传播
训练模型的本质是对损失函数求梯度、然后更新参数。 这一周从链式法则出发,经过计算图和矩阵求导,最终手写一个 micrograd。
概率论与统计
语言模型本质是在建模"下一个词的概率分布"。 从条件概率到 Softmax,从 MLE 到 Bigram 模型, 这一周打通统计学与 LLM 训练目标之间的桥梁。
信息论
信息论是理解"损失函数为什么有效"的关键。 交叉熵、KL 散度、困惑度——这四天解开训练目标背后的数学逻辑。
优化算法
模型怎么"学习",背后全是优化。 从最基本的梯度下降到 Adam,从学习率调度到梯度裁剪, 理解每一个超参数背后的数学直觉。
Transformer 核心数学 + 动手实现
最后十天,把前五个阶段的所有数学工具组合起来—— 从 Embedding 到 Self-Attention,从 Multi-Head 到 LayerNorm, 精读原论文,从零实现一个 mini-GPT。
推荐资源清单
视频(最直观)
3Blue1Brown
《线性代数的本质》《微积分的本质》——用动画建立几何直觉,B站有中文字幕。
Andrej Karpathy「Neural Networks: Zero to Hero」
从 micrograd 到 makemore 再到 nanoGPT,边讲边写代码。本路线的核心参考。
书籍(系统深入)
Mathematics for Machine Learning
Deisenroth 等著,免费 PDF,专为 ML 设计的数学教材。覆盖线代、微积分、概率。
The Matrix Calculus You Need For Deep Learning
Parr & Howard 著,免费,20 页搞定矩阵求导——Day 12 的最佳伴读。
目标论文
- Attention Is All You Need — Vaswani et al. (2017),Transformer 原论文,第 40 天的终极检验
代码参考
学习方法建议
30 + 60 分配法
前 30 分钟理解概念、推公式;后 30–60 分钟写代码或做练习。手推 > 只看。
周末只复习
Day 7、14、21 等复盘日不引入新内容。避免知识积压,让概念沉淀。
20 分钟规则
遇到卡壳的概念不要死磕超过 20 分钟,先标记跳过,等后面看到应用场景往往会豁然开朗。
代码验证公式
每推导完一个公式,立刻用 NumPy 验证。数值对上了,才算真懂。
从应用到理论
先看这个数学在 LLM 里怎么用,再回过头理解为什么。有动机的学习效率翻倍。