统计学总结2

大数定律(law of large number)

根据这个定律知道,样本数量越多,则其算术平均值就有越高的概率接近期望值。

样本均值
$$
\overline{X}_{n}=\frac{1}{n}\left(X_{1}+\cdots+X_{n}\right)
$$
收敛于真值
$$
\overline{X}_{n} \rightarrow \mu \quad \text { as } \quad n \rightarrow \infty
$$

正态分布(norm distribution)

正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个非常常见的连续概率分布。

若随机变量X服从一个位置参数为$\mu$,尺度参数为$\sigma​$的正态分布,记为:
$$
X \sim N\left(\mu, \sigma^{2}\right)
$$
正态分布的概率密度函数为:
$$
f(x)=\frac{1}{\sigma \sqrt{2 \pi}} exp\left({-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}\right)
$$
正态分布的数学期望值或期望值$\mu$等于位置参数,决定了分布的位置;其方差$\sigma^2$的开平方或标准差$\sigma$等于尺度参数,决定了分布的幅度。我们常说的标准正态分布是$\mu = 0$并且$\sigma^2 =1 $的正态分布。

正态分布的性质

  • 其概率密度函数关于均值对称。
  • 平均值与它的众数(statistical mode)以及中位数(median)同一数值。
  • 三$\sigma$原则:68.3%的面积在平均数左右的一个标准差之内,95.44%的面积在平均数左右的两个标准差之内,99.7%的面积在平均数左右的三个标准差之内。
  • 概率密度函数的函数曲线的拐点为离平均数一个标准差距离的位置。
  • 均值的线性与方差的平方线性:

$$
a X+b \sim N\left(a \mu+b,(a \sigma)^{2}\right)
$$

  • 两个独立的正态随机变量的和差满足:

$$
U=X+Y \sim N\left(\mu_{X}+\mu_{Y}, \sigma_{X}^{2}+\sigma_{Y}^{2}\right) \\
V=X-Y \sim N\left(\mu_{X}-\mu_{Y}, \sigma_{X}^{2}+\sigma_{Y}^{2}\right)
$$

​ 这里需要注意的是虽然均值的增减方向与随机变量的方向相同,但是联合分布的方差总是增加的(考虑到一个随机变量的最小值减去另一个变量的最大值,或者相反)

偏态分布

如果峰值的左侧有一些outliers,那么这个正态分布是左偏分布,如果峰值右侧有outliers,则为右偏,左偏的平均值偏左,右偏的平均值在峰值右侧。

Z分数

又称标准分数(z-score,standard score)是一种纯数字标记,表示距离均值有多少个标准差远。z分数可以由以下公式求出:
$$
z=\frac{x-\mu}{\sigma}
$$
在原始分数低于平均值时Z则为负数,反之则为正数。换句话说,Z值是从感兴趣的点到均值之间有多少个标准差。关键点是,计算Z值时需要“母体”的平均值和标准差,而不是“样本”的平均值和标准差。因此需要了解母体的统计数据资料

Z分数通常在查表时使用。