统计学总结3

中心极限定理（Central Limit Theorem）

中心极限定理说明，在适当的条件下，大量相互独立随机变量的均值（或者和）经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量之和近似服从正态分布的条件。

样本均值的抽样分布（Sampling Distribution of the sample mean）

这个分布趋于正态分布，其分布的数学期望为总体均值$\mu$，方差为总体方差的$\frac{1}{n}$（n为样本量）。那么自然的，标准差为总体标准差的$\frac{1}{\sqrt{n}}$。

置信区间（Confidence interval）

一个概率样本的置信区间，是对产生这个样本对的总体的参数分布（parametric distribution）中的摸一个未知参数值，以区间的形式给出的估计。

例如：正态分布，已知总体方差为$\sigma^2$，那么1-$\alpha$水平的正态置信区间为：
$$
\left(\overline{x}-z_{1-\alpha / 2} \frac{\sigma}{\sqrt{n}}, \overline{x}+z_{1-\alpha / 2} \frac{\sigma}{\sqrt{n}}\right) (双边) \\
\left(-\infty, \overline{x}+z_{1-\alpha} \frac{\sigma}{\sqrt{n}}\right) (单边) \\
\left(\overline{x}-z_{1-\alpha} \frac{\sigma}{\sqrt{n}},+\infty\right) （单边）
$$

伯努利分布均值与方差公式

伯努利分布，又称两点分布或者0-1分布，是一个离散型概率分布。成功的概率为p，失败的概率为$q = 1-p$。

其期望值为：
$$
\mathrm{E}[X]=\sum_{i=0}^{1} x_{i} f_{X}(x)=0+p=p
$$
其方差为：
$$
\operatorname{var}[X]=\sum_{i=0}^{1}\left(x_{i}-E[X]\right)^{2} f_{X}(x)=(0-p)^{2}(1-p)+(1-p)^{2} p=p(1-p)=p q
$$

误差范围

再对总体状况一无所知的情况下，我们通过采样来估计总体，我们可以求得样本均值$\bar{x}$，样本方差$s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2} $，与样本标准差$s = \sqrt{s^2}$。那么我们要来评价这个估计值到底有多好。

误差范围通常在三个可信度上给出；99%，95%和90%。99%这个级别是最保守的，而90%的级别是最不保守的。95%的级别最为常用。如果可信度为95％，则整个样本空间的“真实”百分比有95％的可能处于一个问卷的结果的误差范围内。等价的说，误差范围就是95％可信区间的半径。

置信区间

在统计学中，一个概率样本的置信区间（Confidence interval，CI），是对产生这个样本的总体的参数分布（Parametric Distribution）中的某一个未知参数值，以区间形式给出的估计。相对于点估计（Point Estimation）用一个样本统计量来估计参数值，置信区间还蕴含了估计的精确度的信息。

求解置信区间四步骤

选择总体统计量
求出其抽样分布
决定置信水平
求出置信上下限

第一步是选择要为之构建置信区间的总体统计量，这取决于要解决的实际问题。（我们经常看到的情况是求总体均值的置信区间，这里以均值为例）。第二部，为了求出总体均值的抽样分布，我们需要知道均值的抽样分布。即需要知道$\bar{X}$的期望和方差以及其分布。
$$
\mathrm{E}(\bar{X}) = \mu \quad, \quad \mathrm{Var}(\bar{X}) =\frac{\sigma^2}{n}
$$
我们需要带入总体方差以及样本大小，但是要注意我们这里不带入总体均值$\mu$，因为我们现在就在用抽样分布求$\mu$的置信区间。但是注意到我们没有总体的信息，我们现在无法得到总体的方差，我们只能够使用样本方差来点估计总体方差。于是我们得到公式：
$$
\mathrm{E}(\bar{X}) = \mu \quad, \quad \mathrm{Var}(\bar{X}) =\frac{s^2}{n}
$$
第三部，决定置信水平，常用的只有两种95%与99%。置信水平越高，区间越宽，置信区间包含总体统计量的几率越大。现在我们知道我们的分布满足正态分布$\bar{X} \sim \mathcal{N}(\mu, \frac{s^2}{n})$。第四步，求出置信上下限，下面我们根据这个分布求Z值，然后利用Z值查表即可得到Z值的置信区间的上下限，在使用Z值计算公式的逆运算，求出总体均值$\mu$的置信区间的上下限（不等式运算）。

小样本容量置信区间

一般来讲，n<30，不能进行好的估计，针对这种情况，给出t distribution对sample mean分布进行修正。这种情况下我们不能够将这个分布看作是正态分布，相对的我们将这中分布定义为T分布。T分布和正态分布相似，具有更肥的尾部（fatter tails），肥尾是因为低估了抽样分布的标准差$s$。对应的，不再去查z table，而是去查T table。T table的列为自由度（degrees of freedom），即n-1。

题外话：置信（confident）并不表示真正的95%的概率等，而是表示我们只是相信有95%的几率。

Reference

统计学——小样本容量置信区间[https://blog.csdn.net/snowdroptulip/article/details/78979732]