统计学总结6

线性回归-平方误差

在统计学中,线性回归(英语:linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归(multivariate linear regression)。

在这种回归算法中如果使用线性函数$y = mx + b$来建模,并且未知的模型参数也是通过数据来估计,那么这种模型被叫做线性模型。

需要拟合的n个点与直线之间的平方误差公式可以简化为:
$$
SquareError_{line} = n\bar{y^2} - 2mn\bar{xy} - 2bn\bar{y} + m^2n\bar{x^2} + 2mbn\bar{x} + nb^2
$$
为了求最小,下面对这个式子对m和b进行偏微分:
$$
-2n\bar{xy} + 2n\bar{x^2}m + 2bn\bar{x} = 0 \\
-2n\bar{y} + 2nm\bar{x} + 2bn = 0
$$
我们可以得到:
$$
m\bar{x^2} + b\bar{x} = \bar{xy} \\
m\bar{x} + b = \bar{y}
$$
进一步我们知道了最佳拟合直线$y = mx +b$ 上的两点分别为$(\bar{x}, \bar{y})$和$(\frac
{\bar{x^2}}{\bar{x}}, \frac{\bar{xy}}{\bar{x}})$。我们还可以直接通过上面的式子求出拟合直线的斜率,
$$
m = \frac{\bar{x}\bar{y}-\bar{xy}}{(\bar{x})^2 - \bar{x^2}}
$$
截距b为
$$
b = \bar{y} - m\bar{x}
$$

决定系数$R^2$

表示y的波动程度有多少百分比能够被x的波动程度所描述。

y的总波动为
$$
S S_{\mathrm{tot}}=\sum_{i}\left(y_{i}-\overline{y}\right)^{2} = (y_1 - \bar{y})^2 + (y_2 - \bar{y})^2 + \cdots + (y_n - \bar{y})^2
$$
那么在总波动中,有多大的成分是没有被回归线所描述的呢?其实就是直线的平方误差:
$$
S S_{\mathrm{res}}=\sum_{i}\left(y_{i}-f_{i}\right)^{2}=\sum_{i} e_{i}^{2}
$$
那么根据我们上面的定义,可以得到决定系数的定义式为:
$$
R^{2} \equiv 1-\frac{S S_{\mathrm{res}}}{S S_{\mathrm{tot}}}
$$
下面我们引用wikipedia的可视化来加深一下理解,

决定系数示意图 线性回归(右侧)的效果比起平均值(左侧)越好,决定系数的值就越接近于1。 蓝色正方形表示线性回归的残差的平方, 红色正方形数据表示对于平均值的残差的平方。

协方差(Covariance)

期望值分别为$E(X) = \mu$与$E(Y) = \nu$的两个具有有限二阶矩的实数随机变量X 与Y 之间的协方差定义为:
$$
\operatorname{cov}(X, Y)=\mathrm{E}((X-\mu)(Y-\nu))=\mathrm{E}(X \cdot Y)-\mu \nu
$$
我们可以发现,协方差的定义式与最小二乘法回归中的最佳拟合直线的斜率的分子是一样的。其实我们可以将斜率重新表示为:
$$
m = \frac{Cov(X,Y)}{Var(X)}
$$

异方差性

异方差(Heteroscedasticity)指一系列的随机变量其方差不相同。

当我们利用普通最小二乘法(Ordinary Least Squares)进行回归估计时,常常做一些基本的假设。其中之一就是误差项(Error term)的方差是不变的。异方差是违反这个假设的。如果普通最小平方法应用于异方差模型,会导致估计出的方差值是真实方差值的偏误估计量(Biased standard error), 但是估计值(estimator)是不偏离的(unbiased)

常见的数据带有异方差性的情况