中心极限定理(Central Limit Theorem)
中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值(或者和)经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。
样本均值的抽样分布(Sampling Distribution of the sample mean)
这个分布趋于正态分布,其分布的数学期望为总体均值$\mu$,方差为总体方差的$\frac{1}{n}$(n为样本量)。那么自然的,标准差为总体标准差的$\frac{1}{\sqrt{n}}$。
置信区间(Confidence interval)
一个概率样本的置信区间,是对产生这个样本对的总体的参数分布(parametric distribution)中的摸一个未知参数值,以区间的形式给出的估计。
例如:正态分布,已知总体方差为$\sigma^2$,那么1-$\alpha$水平的正态置信区间为:
$$
\left(\overline{x}-z_{1-\alpha / 2} \frac{\sigma}{\sqrt{n}}, \overline{x}+z_{1-\alpha / 2} \frac{\sigma}{\sqrt{n}}\right) (双边) \\
\left(-\infty, \overline{x}+z_{1-\alpha} \frac{\sigma}{\sqrt{n}}\right) (单边) \\
\left(\overline{x}-z_{1-\alpha} \frac{\sigma}{\sqrt{n}},+\infty\right) (单边)
$$
伯努利分布均值与方差公式
伯努利分布,又称两点分布或者0-1分布,是一个离散型概率分布。成功的概率为p,失败的概率为$q = 1-p$。
其期望值为:
$$
\mathrm{E}[X]=\sum_{i=0}^{1} x_{i} f_{X}(x)=0+p=p
$$
其方差为:
$$
\operatorname{var}[X]=\sum_{i=0}^{1}\left(x_{i}-E[X]\right)^{2} f_{X}(x)=(0-p)^{2}(1-p)+(1-p)^{2} p=p(1-p)=p q
$$
误差范围
再对总体状况一无所知的情况下,我们通过采样来估计总体,我们可以求得样本均值$\bar{x}$,样本方差$s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2} $,与样本标准差$s = \sqrt{s^2}$。那么我们要来评价这个估计值到底有多好。
误差范围通常在三个可信度上给出;99%,95%和90%。99%这个级别是最保守的,而90%的级别是最不保守的。95%的级别最为常用。如果可信度为95%,则整个样本空间的“真实”百分比有95%的可能处于一个问卷的结果的误差范围内。等价的说,误差范围就是95%可信区间的半径。
置信区间
在统计学中,一个概率样本的置信区间(Confidence interval,CI),是对产生这个样本的总体的参数分布(Parametric Distribution)中的某一个未知参数值,以区间形式给出的估计。相对于点估计(Point Estimation)用一个样本统计量来估计参数值,置信区间还蕴含了估计的精确度的信息。
求解置信区间四步骤
选择总体统计量
求出其抽样分布
决定置信水平
求出置信上下限
第一步是选择要为之构建置信区间的总体统计量,这取决于要解决的实际问题。(我们经常看到的情况是求总体均值的置信区间,这里以均值为例)。第二部,为了求出总体均值的抽样分布,我们需要知道均值的抽样分布。即需要知道$\bar{X}$的期望和方差以及其分布。
$$
\mathrm{E}(\bar{X}) = \mu \quad, \quad \mathrm{Var}(\bar{X}) =\frac{\sigma^2}{n}
$$
我们需要带入总体方差以及样本大小,但是要注意我们这里不带入总体均值$\mu$,因为我们现在就在用抽样分布求$\mu$的置信区间。但是注意到我们没有总体的信息,我们现在无法得到总体的方差,我们只能够使用样本方差来点估计总体方差。于是我们得到公式:
$$
\mathrm{E}(\bar{X}) = \mu \quad, \quad \mathrm{Var}(\bar{X}) =\frac{s^2}{n}
$$
第三部,决定置信水平,常用的只有两种95%与99%。置信水平越高,区间越宽,置信区间包含总体统计量的几率越大。现在我们知道我们的分布满足正态分布$\bar{X} \sim \mathcal{N}(\mu, \frac{s^2}{n})$。第四步,求出置信上下限,下面我们根据这个分布求Z值,然后利用Z值查表即可得到Z值的置信区间的上下限,在使用Z值计算公式的逆运算,求出总体均值$\mu$的置信区间的上下限(不等式运算)。
小样本容量置信区间
一般来讲,n<30,不能进行好的估计,针对这种情况,给出t distribution对sample mean分布进行修正。这种情况下我们不能够将这个分布看作是正态分布,相对的我们将这中分布定义为T分布。T分布和正态分布相似,具有更肥的尾部(fatter tails),肥尾是因为低估了抽样分布的标准差$s$。对应的,不再去查z table,而是去查T table。T table的列为自由度(degrees of freedom),即n-1。
题外话:置信(confident)并不表示真正的95%的概率等,而是表示我们只是相信有95%的几率。