- 概率论 - 基础概念 - 概率 - 描述可能性的数值 - 随机变量 - 事件所有可能出现的状态 - 分类 - 离散型随机变量 - 连续型随机变量 - 概率分布 - 每个状态出现的可能性 - 举例 - 娱乐圈明星投资互联网公司 - 娱乐新闻 20% - 科技新闻 80% - 新闻类型-随机变量 x - 概率分布 P(x) - 娱乐新闻概率 60% - 科技新闻概率 20% - 体育新闻概率 20% - 联合概率 - 增加另外一个随机变量 y - 区分新闻属于国内还是国外 - 由 x 和 y 联合起来确定新的概率分布 - 用 P(x, y) 来表示 - 边缘概率 - 离散型随机变量 - 通过联合概率 P(x,y) 在 y 上求和,可以得到 P(x) - 连续型随机变量 - 通过联合概率 P(x,y) 在 y 上积分,得到 P(x) - P(x) 就是边缘概率 - 作用 - 我们只需要研究单个事件对概率分布的影响 - 边缘概率可以去除不需要关系的事件 - 忽略掉 y 事件 - 可以将联合概率转换为非联合概率 - 条件概率 - 举例 - 100 篇有 30 篇是国际新闻 - 30 篇有 5 篇是科技新闻 - 科技新闻出现国际新闻的概率 - 某个事件受其他事件影响后出现的概率 - 国际新闻中出现科技新闻的概率是 5/30 = 16.67% - 科技新闻中出现国际新闻的概率是 5/20 = 25% - 概率论研究的就是概率间互相转换的关系 - 概率和统计 - 概率对数据产生的过程进行建模,研究某种模型产生的数据有什么特性 - 统计是通过已知的数据,推导产生这些数据的模型是怎么样的 - 随机变量 - 没发生运算前,普通变量的值不会发生变化,取值确定后,就是一个固定的值 - 随机变量的值不固定,结果的不确定性,导致了随机变量取值的不确定性 - 离散型 - 抛硬币出现的正反、每周下雨的天数 - 可以直接求和得出 - 连续型 - 汽车每小时行驶的速度、银行排队的时间 - 必须用积分计算 - 概率分布 - 概率分布描述的是随机变量的概率规律 - 离散分布模型 - 伯努利分布 - 是单个随机变量的分布 - 取值只有两种 0 和 1 - 通过参数 λ 控制变量为 1 的概率 - $P(x=0)=1-\lambda\\P(x=1)=\lambda$ - $P(x)={\lambda}^x(1-\lambda)^{1-x}\space\space x\in\{0,1\}$ - 抛硬币属于伯努利分布 - 分类分布 - 描述了一个具有 k 个不同状态的单个随机变量 - k = 2 的时候,变为伯努利分布 - $P(x=k)={\lambda}_k$ - 连续分布模型 - 正态分布 - $\frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)$ - $\mu$ 是均值,$\sigma$ 是标准差 -  - 越靠近中心点 $\mu$ 出现的概率越高 - 随着远离 $\mu$,出现的概率先加速下降,然后减速下降 - 蓝色区域代表的是这个区域的面积,也是数据取值在这个范围的概率 - 期望值 - 是每次随机结果出现概率乘以其结果的综合 - 是所以结果的加权平均值 - 使用期望值的两要素 - 这个问题可能出现不同的情况,各种情况的出现满足了一定的概率分布 - 每种情况都对应一个数值,这个数值代表了具体的应用含义 - 联合概率 - 由多个随机变量决定的概率是联合概率 - 概率分布就是联合概率分布 - x 和 y 的联合概率使用 P(x,y) 表示 - 边缘概率 - P(x,y) 对 y 求和或积分 - 条件概率 - 计算了给定某个随机变量下,另一个随机变量出现的概率 - 给定随机变量 x,随机变量 y 的条件概率用 P(y|x) 表示 - 贝叶斯定理 - $P(x,y)=P(x|y)\times P(y)\\P(y,x)=P(y|x)\times P(x)$ - $P(x|y)\times P(y)=P(x,y)=P(y,x)=P(y|x)\times P(x)\\P(x|y)=\frac{P(y|x)\times P(x)}{P(y)}$ - P(x) 是先验概率,因为它是从数据统计中得到的,不需要经过贝叶斯定理的推算 - P(y|x) 是给定 x 之后 y 出现的概率,在统计学中,也把 P(y|x) 写作似然函数 L(y|x) - P(x|y) 是通过贝叶斯定理推算而来,因此称为后验概率 - 核心思想是通过先验概率和条件概率估算后验概率 - A/B 测试 - 简介 - 为同一个目标指定两个或多个方案,让一部分用户使用 A 方案,另一部分用户使用 B 方案,记录下每个部分用户的使用情况,看哪个方案产生的结果更好 - 两组数据差异的原因 - 两个分布的差异 - 显著性差异 - 采样引起的差异 - 无显著性差异 - 显著性差异 - 研究多组数据之间的差异是由于不同的数据分布还是由于采样的误差导致 - 假设检验 - 虚无假设/原假设 (H0) - 事先对随机变量的参数或总体分布作出一个假设,然后利用样本信息判断这个假设是否合理 - 对立假设 (H1) - 和原假设对立,如果证明虚无假设不成立,那么可以推出对立假设 - 步骤 - 1. 认为原假设成立,计算其会导致什么结果 - 2. 如果单次实验出现了小概率事件,则拒绝原假设 H0,并接受对立假设 H1 - 3. 如果不会产生小概率事件,那么不能拒绝原假设 H0,从而接受它 - 小概率 - 把概率不超过 0.05 的事件称为小概率事件,记为 α,并称它为显著性水平 - 显著性检验 - 判断多组数据之间的差异,是采样导致的偶然,还是由于不同数据分布导致的必然 - 假设是多个数据分布之间没有差异 - 如果样本发生概率小于显著性水平,证明小概率事件发生了,拒绝原假设 - P 值 - P 值的 P 代表 Probability,就是当 H0 假设为真时,样本出现的概率 - 如果 P 值很小,说明观测值与假设 H0 的期望值有很大的偏离,H0 发生的概率很小 - 方差分析 (F 检验) - 检验两组或多组样本的均值是否具有显著性差异