主成分分析
常用的降维方法,核心的数学基础就是我们常用的特征分解/奇异值分解(SVD)。
主成分分析(Principal Component Analysis, PCA)是一种统计方法。通过正交变换将一组能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。我们已可以将其看作是一种“投影”的技巧。将高维空间中的数据投影到低维空间。从这个角度来讲,主成分分析的目标就是采用何种方式(哪个方向)投影,才能够在投影之后的结果中保留尽可能多的原空间中的信息(maintains the characteristics of the original object as much as possible)。
从这个角度来考虑的话,在实践中我们可以使用协方差来评价投影结果的好坏,这主要是使用方差来判断这个投影方向能否将原数据的特征尽可能的分别开。在统计学上,协方差用来刻画两个随机变量之间的相关性,反映的是变量之间的二阶统计特性。考虑两个随机变量$X_i$和$X_j$,他们的协方差定义为
$$
\operatorname{cov}\left(X_{i}, X_{j}\right)=E\left[\left(X_{i}-E\left(X_{i}\right)\right)\left(X_{j}-E\left(X_{j}\right)\right)\right]
$$
有性质
$$
\operatorname{cov}\left(X_{i}, X_{j}\right)=\operatorname{cov}\left(X_{j}, X_{i}\right)
$$
$$
\operatorname{cov}\left(X_{i}, X_{i}\right)=\operatorname{var}\left(X_{i}\right)
$$
进一步,利用利用数学期望的线性,可以将协方差的公式改写成
$$
\operatorname{cov}\left(X_{i}, X_{j}\right)=E\left[\left(X_{i}-E\left(X_{i}\right)\right)\left(X_{j}-E\left(X_{j}\right)\right)\right]=E\left(X_{i} X_{j}\right)-E\left(X_{i}\right) E\left(X_{j}\right)
$$
$n$维随机变量$X=\left(X_{1}, X_{2}, \cdots, X_{n}\right)^{T}$的协方差矩阵定义为
$$
\begin{align}
C :=C(X)=\left(c_{i, j}\right)_{n \times n}=
\begin{bmatrix}
\operatorname{cov}\left(X_{1}, X_{1}\right) &\operatorname{cov}\left(X_{1}, X_{2}\right) &\cdots &\operatorname{cov}\left(X_{1}, X_{n}\right)\\
\operatorname{cov}\left(X_{2}, X_{1}\right) &\operatorname{cov}\left(X_{2}, X_{2}\right) & \cdots &\operatorname{cov}\left(X_{2}, X_{n}\right)\\
& & \ddots & \\
\operatorname{cov}\left(X_{n}, X_{1}\right) &\operatorname{cov}\left(X_{n}, X_{2}\right) &\cdots &\operatorname{cov}\left(X_{n}, X_{n}\right)
\end{bmatrix}
\end{align}
$$
其中$c_{i, j}=\operatorname{cov}\left(X_{i}, X_{j}\right)$,显然,矩阵C是一个对称矩阵。
协方差矩阵C中的对角线元素表示方差,非对角线元素表示随机向量X的不同分量之间的协方差。协方差一定程度上体现了相关性,因而C可作为刻画不同分量之间相关性的一个评判量。若不同分量之间的相关性越小,则C的非对角线元素的值就越小.特别地,若不同分量彼此不相关,那么C就变成了一个对角阵。
主成分分析的缺陷
- 主成分分析只能够对数据进行线性变换,对于一些线性不可分的数据是非常不利的。
- 主成分分析的结果容易受到每一维数据的大小的影响,如果我们对每一维数据乘以一个不同的权重因子之后再进行PCA降维,得到的结果可能与直接进行的PCA降维有很大的误差。
参考资料
- 理解主成分分析 (PCA),https://zhuanlan.zhihu.com/p/37810506
- PCA(主成分分析)的简单理解,https://www.cnblogs.com/hapjin/p/6728697.html