实验-leetcode-437-路径总和 3
实验元数据 (Meta Data) 实验编号/标题:实验-leetcode-437-路径总和 3 ...
实验元数据 (Meta Data) 实验编号/标题:实验-leetcode-437-路径总和 3 ...
实验元数据 (Meta Data) 用于日后检索和归档,建立知识索引。 实验编号/标题:例如:自动调研 Agent (LangGraph + Plan-And-Execute) ...
实验元数据 (Meta Data) 实验编号/标题:LLM-RAG-个人知识库助手 ...
实验元数据 (Meta Data) 实验编号/标题:例如:LLM-ReAct 搜索 Agent 实验 ...
实验元数据 (Meta Data) 实验编号/标题:例如:LLM-智能翻译助手-实验 ...
实验元数据 (Meta Data) 实验编号/标题:Transformer 实验 ...
预备知识 - 预备知识 - 线性代数 - 向量与矩阵乘法 - 向量与向量乘法 - 内积 - 计算:对应元素相乘再相加,结果是一个标量 - $a\cdot b=\sum_{i=1}^n a_ib_i$ - 几何意义:衡量两个向量的相似度 - 如果内积为 0,向量正交 - 内积也可以表示为 $||a||||b||cos(\theta)$,即 a 在 b 方向上的投影长度乘以 b 的长度 - 外积 - 计算:一个列向量乘以一个行向量,结果是一个矩阵 - 意义:构造一个秩为 1 的矩阵。在 SVD 中,复杂的举证就是由多个这样的秩 1 矩阵加权累加的 - 列空间 - 定义 - 想象矩阵 A 的每一列都是一个导航箭头(向量) - 如果 A 有两列 a1,a2,那么这两根箭头张开所能到达的所有地方,就是一个平面 - 这个平面就是矩阵 A 的列空间 - 列空间就是利用矩阵里的列向量,通过加减、缩放所能拼凑出的所有可能的结果向量的集合 - 矩阵与向量的乘法 - 假设有矩阵 A 和向量 x - 线性组合 - 矩阵 A 乘以向量 x,等价于将 A 的列向量按照 x 中的元素进行加权求和 - 结果向量 b 必然落在矩阵 A 的列空间内 - 线性变换 - 将矩阵 A 看作一个函数或算子,它把输入向量 x 旋转、伸缩或投影到了一个新的位置 - 特征值/特征向量的学习,本质就是在寻找这个变换中方向不变的特殊向量 - 矩阵与向量的乘法 - 行乘列(传统定义) - C 中第 i 行第 j 列的元素,是 A 的第 i 行与 B 的第 j 列的内积 - 列变换视角 - 把 B 看作一组列向量[b1,b2,...,bn],那么 AB 的结果就是[Ab1,Ab2,...,Abn] - 意义:矩阵 A 同时对 B 的每一列进行了相同的线性变换 - 分块矩阵乘法 - 将大矩阵划分为子矩阵进行运算 - 是计算机高性能计算和处理大数据时的核心原理 - 关键运算性质 - 不满足交换律:一般情况下 AB!=BA,矩阵乘法的顺序至关重要 - 满足结合律:A(BC)=(AB)C,意味着在计算长链乘法时,可以通过改变计算顺序来优化计算量 - 转置性质:$(AB)^T=B^TA^T$ - 范数 - 定义:范数是一个将向量映射到非负实数的函数,直观可以理解为衡量向量的大小或长度 - 没有范数,无法定义距离,也无法优化模型 - 性质 - 非负性:||x||>=0,且只有当 x 是零向量时,范数才是 0 - 齐次性:$||kx||=|k|\cdot ||x||$,向量放大 k 倍,长度也放大 k 倍 - 三角不等式:||x+y||<=||x||+||y||,两边之和大于第三边 - 常见的向量范数 - 公式 -  - L1 范数 - 计算:所有元素绝对值之和。$||x||_1=\sum|x_i|$ - 几何:只能沿格子线走 - 特性:会倾向于让向量中的许多元素变为 0,从而产生稀疏性 - 应用:L1正则化,用于特征选择,剔除不重要的变量 - L2 范数 - 计算:元素平方和再开方。$||x||_2=\sqrt{\sum x_i^2}$ - 几何:计算两点之间的直线距离(最直观的距离) - 特性:对大数值非常敏感,处处可导,计算方便 - 应用:L2 正则化,防止模型过拟合;深度学习中的权重衰减。 - $L\infty$ 范数 - 计算:向量中绝对值最大的那个元素的值 - 应用:用于衡量最坏情况下的误差 - 矩阵范数 - Frobenius 范数 - 计算:把矩阵看成一个大向量,所有元素的平方和再开方 - 用途:衡量两个矩阵之间的距离,用于矩阵分解(SVD 或推荐系统)的损失函数。 - 基 - 定义 - 在向量空间里,基就是坐标系 - 在二维平面上,习惯用 x 轴 (1,0) 和 y 轴(0,1) 作为基。 - 任何一个点 (3,4) 都可以看作是:在 x 轴方向走 3 步,在 y 轴方向走 4 步。 - 基决定了观察和描述向量的视角。 - 特征值与特征向量 - 定义 - 对于一个方阵 Ai,如果存在一个非零向量 v 和一个标量 $\lambda$,满足如下等式 -  - 那么 v 就是特征向量,$\lambda$ 就是对应的特征值 - 特征值分解 - 如果一个 nxn 矩阵 A 有 n 个线性无关的特征向量,它可以被分解为 -  - Q:由特征向量组成的矩阵 - $\Lambda$ (Lambda):对角矩阵,对角线上是对应的特征值 - 奇异值分解 - 数学定义 - 对于任何 m*n 的矩阵 A,都可以分解为 -  - U(m x n 阶):左奇异值向量矩阵,它是正交矩阵(各列互相垂直且长度为 1),代表了变换后的输出空间的基。 - $\sum$ (m x n 阶):奇异值矩阵,只有对角线有值,称为奇异值($\sigma_1,\sigma_2, \dots$$),按从小到大排列,代表了每个方向上的权重或重要性。 - $V^T$ (n x n 阶):右奇异向量矩阵的转置,也是正交矩阵,代表了输入空间的基。 - 几何直观 - 如果把矩阵 A 看作一个变换,SVD 告诉我们这个变换可以拆为 3 步: - $V^T$(旋转):将输入向量旋转到特定的方向,使其与奇异向量对齐。 - $\sum$(缩放):在这些特定的方向上进行拉伸或压缩,奇异值越大,拉伸幅度越大。 - U (旋转):再次旋转,将结果映射到最终的输出空间。 - 概率统计 - 最大似然 - 有一组数据 $D={x_i}^n_{i=1}$,选择了一个参数化模型 p(x|θ) - 似然:把数据当成已发生的事实,把 θ 当成变量,问在这个 θ 下,数据出现的可能性有多大 - 最大似然估计:选一个 $\hat\theta$ 让 L(θ) 最大
实验元数据 (Meta Data) 实验编号/标题:Redis List 底层数据结构实验 ...
实验元数据 (Meta Data) 实验编号/标题:Redis set 底层数据结构实验 ...
实验元数据 (Meta Data) 实验编号/标题:Redis String 底层数据结构实验 ...