PCA主成分分析

1 特征中心化。即每一维的数据都减去该维的均值。
2 计算协方差矩阵.协方差就是衡量两个变量相关性的变量
3 计算协方差矩阵的特征值和特征向量
4 选取从大到小依次选取若干个的特征值对应的特征向量,映射得到新的样本集:样本乘以特征向量

PCA简介

PCA的思想是将$n$维特征映射到$k$维空间上$k<n$,这$k$维特征是全新的正交特征,是重新构造出来的$k$维特征,而不是简单地从$n$维特征中去除其余$n−k$维特征。那么如何衡量投影向量的优劣呢?在数学上有三种方法衡量投影的优劣!PCA可以被定义为数据在低维线性空间上的正交投影。如下图所示,将3维空间中的数据映射到2维空间。

  • 映射的基本原则
  1. 使得投影数据的⽅差被最⼤化(Hotelling, 1933),即最大方差理论。即数据映射之后差异性最大,方法最大
  2. 使得平均投影代价最⼩的线性投影,即最小误差理论。平均投影代价是指数据点和它们的投影之间的平均平⽅距离

假设三维空间中有一系列点,这些点分布在一个过原点的斜面上,如果你用自然坐标系x,y,z这三个轴来表示这组数据的话,需要使用三个维度,而事实上,这些点的分布仅仅是在一个二维的平面上。我们所需要做得就是旋转x、y平面使其与数据点重合

PCA实现步骤

  1. 特征中心化。即每一维的数据都减去该维的均值。
  2. 计算协方差矩阵.协方差就是衡量两个变量相关性的变量。当协方差为正时,两个变量呈正相关关系(同增同减);当协方差为负时,两个变量呈负相关关系(一增一减)PCA为什么使用协方差.md

  3. 计算协方差矩阵的特征值和特征向量。

  4. 选取从大到小依次选取若干个的特征值对应的特征向量,映射得到新的样本集。样本乘以特征向量

PCA实例

现在假设有一组数据如下:

解决步骤:
1、 分别求x和y的平均值,然后对于所有的样例,都减去对应的均值。这里x的均值是1.81,y的均值是1.91。

2、 求特征协方差矩阵,如果数据是3维,那么协方差矩阵是

这里只有x和y,求解得对角线上分别是x和y的方差,非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。协方差大于0表示x和y若一个增,另一个也增;小于0表示一个增,一个减。如果x和y是统计独立的,那么二者之间的协方差就是0;但是协方差是0,并不能说明x和y是独立的。协方差绝对值越大,两者对彼此的影响越大,反之越小。
3、 求协方差的特征值和特征向量,得到

4、 将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
5、 将样本点投影到选取的特征向量上
参考文献