卡方分布($\chi^2$分布)
卡方分布(chi-square distribution, χ²-distribution,或写作χ²分布)是概率论与统计学中常用的一种概率分布。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。卡方分布是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验和置信区间的计算。
通常我们用它来检验理论分布与观测吻合得有多好。(皮尔森卡方检定的一种应用)
由卡方分布延伸出来皮尔森卡方检定常用于:
- 样本某性质的比例分布与总体理论分布的拟合优度(例如某行政机关男女比是否符合该机关所在城镇的男女比)
- 同一总体的两个随机变量是否独立(例如人的身高与交通违规的关联性)
- 二或多个总体同一属性的同素性检定(意大利面店和寿司店的营业额有没有差距)
若k个随机变量$Z_1, \cdots, Z_k$是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和
$$
X=\sum_{i=1}^{k} Z_{i}^{2}
$$
被称作服从自由度为k的卡方分布,计作:
$$
\begin{aligned} X & \sim \chi^{2}(k) \ X & \sim \chi_{k}^{2} \end{aligned}
$$
下表k表示的是自由度。下图是卡方分布的在不同自由度下的概率密度函数。from:Wikipedia.
皮尔森卡方检验
例子:我们有某餐厅的预计顾客人数与实际顾客人数,我们要判断我们的预测是否准确,现在我们有原假设H0我们的预测是正确的,备择假设H1我们的预测不正确,在检验中我们设定显著性水平$\alpha = 0.05$。预计与现象如下表:
Day | Mon. | Tues. | Wed. | Theu. | Fri. | Sat. |
---|---|---|---|---|---|---|
Expected% | 10 | 10 | 15 | 20 | 30 | 15 |
Observed | 30 | 14 | 34 | 45 | 57 | 20 |
我们要先计算总人数,200人。下面我们计算我们的期待人数,在营业的六天时间里分别是20,20,30,40,60,30. 如果预计正确,那么我们应该见到这么多顾客。
下面我们来计算卡方统计量,我们假设我们卡方统计量符合卡方分布
$$
chi-square-statistic = X^2 = \sum\frac{(Observed_i - Expected_i)^2}{Expected_i}
$$
将具体值带入进去我们可以得到卡方统计量为11.44。
我们可以查表在自由度为5的情况下,显著性为5%的情况下,临界值为11.07,我们现在的卡方统计量在拒绝域中,所以我们拒绝原假设,选择相信备择假设:我们的预测不正确。
方差分析
我们以以下数据为例子来介绍方差分析,首先我们有三组数据:
GROUP | 1 | 2 | 3 |
---|---|---|---|
Data1 | 3 | 5 | 5 |
Data2 | 2 | 3 | 6 |
Data3 | 1 | 4 | 7 |
对于全体数据,我们有自由度$DOF = m\cdot n - 1= 8 $
首先我们求得每一组的组内均值:$\bar{X_1} = 2, \bar{X_2} =4, \bar{X_3} =6$,我们再计算所有数据的总体均值:$\bar{X}_{total} = 4$。
我们接着计算总体的方差和(Total Sum of Square)
$$
TSS = \sum_{i} \sum_{j}\left(X_{i j}-\overline{X}_{t o t a l}\right)^{2} = 30
$$
我们再计算组内变异量的和(Within Sum of Square),表示总波动中有多少是因为各组内数据点同各自均值之间的差异造成的,对于组内数据的波动,如果我们知道每组数据的均值的话,假设我们有m组数据,每组数据有n个数据点,那么我们只需要n-1个数据点就可以表示整组数据了,所以我们总的自由度$DOF=m\cdot(n-1) = 6$。
$$
WSS = \sum_{i} \sum_{j}\left(X_{i j}-\overline{X}_{i}\right)^{2} = 6
$$
再计算组间变异量的和(Between Sum of Square),表示总波动中有多少是因为组间波动,对于组间数据的波动我们有自由度$DOF = m-1 = 2$
$$
BSS = \sum_{i} n_{i}\left(\overline{X}_{i}-\overline{X}_{t o t a l}\right)^{2} = 24
$$
对比上面的计算结果我们可以发现,总体方差的和等于组内变异量加上组间变异量,同时自由度也满足这个规律。
由上述的计算公式可知,BSS代表所有观测值的期望值与分组后各组内的期望值差异,换言之,当各组的期望值没有差异的时候,BSS=0,这个时候我们会认为各组间平均值就没有差异存在,但并不代表所有观测值的一致性也会很高,因此计算WSS来帮助我们判断所有期望值的差异量多寡,当WSS=0的情况,代表各组内的所有观测值与各组的期望值没有差异存在,因此只有WSS与BSS都为0情况下,我们才能断定所有观测值达到完美的一致,然而当WSS>0, BSS=0的情况,则是各组期望值达到一致,但组内却存在变异,WSS=0, BSS>0,则是组内没有变异存在,但各组间却存在差异,然后真实状况不可能如此极端,因此必须比较WSS与BSS的差异来判断方差分析的结果,也就是各组期望值是否有差异存在。而这个部分在比较变异量的过程中,必须考量到各组变易量会受到观测数量与组别数量的多寡而有所差异,因此必须进行自由度的调整,也就是计算出均方值来比较组内变异与组间变异量。
下面我们有几个指标来评价各个变异量对总体方差和的波动影响:
- 组间均方BMSS(between means sum of squares):
$$
B M S S=\frac{B S S}{m-1}=\frac{\sum_{i} n_{i}\left(\overline{X}_{i}-\overline{X}_{\text { total }}\right)^{2}}{m-1}
$$
- 组内均方WMSS(within means sum of squares):
$$
W M S S=\frac{W S S}{m(n-1)}=\frac{\sum_{i} \sum_{j}\left(X_{i j}-\overline{X}_{i}\right)^{2}}{m(n-1)}
$$
我们经常用这两个指标来进行F检定,F统计量定义为:
$$
F statistic = \frac{BMSS}{WMSS}
$$
F越大,则组间均方大于组内均方,也就是组间变异量大于组内变异量,各组间的差异远超出总期望值离差,代表各组的平均数存在明显的差异,相反的,F越小甚至于逼近于0,则是组间变异量小于组内变异量,代表各组间的差异很小,各组平均数则不存在明显的差异。