如何理解主成分分析法（PCA）_美容护肤

什么是主成分分析法

主成分分析法：英文全名 Principal Component Analysis 简称 PCA ，由名字就可以看出来，这是一个挑重点分析的方法。主成分分析法是通过恰当的数学变换，使新变量—— 主成分成为原变量的线性组合，并选取少数几个在变差总信息量中比例较大的主成分来分析事物的一种方法。主成分在变差信息量中的比例越大，它在综合评价中的作用就越大

思想：整体思想就是化繁为简，抓住问题关键，也就是降维思想。当然，既然是抓住关键，那么自然就是以牺牲精度为代价。

解决问题：因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和分析问题的复杂性。

人们希望在进行定量分析过程中，涉及的变量较少，得到的信息量较多。为了尽可能的减少冗余和噪音，一般情况可以从相关变量中选择一个，或者把几个相关变量综合为一个变量作为代表，用少数变量来代表所有变量。

原理：因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。根据这一点，通过对原始变量和相关矩阵的内部结构的关系研究，找出影响目标变量某一要素的几个综合指标，使综合指标为原来变量的线性拟合。这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比原始变量具有某些更优越的性质，使得我们在研究复杂目标变量评估问题时，容易抓住主要矛盾。

形象理解

比如，某学籍数据，有两列 M 和 F ，其中M 列的取值是如果学生为男性，则取值为 1 如果为女性，则取值为 0 。F 列，如果为男性则取值为 0 否则取值为一。由这两种关系可以知道，这两列数据是强相关的。只要保留一列，就能够完全还原另外一列。当然，不要局限于数据删除，还有数据转换，删除可以理解为在此方法中的一种方式。

当然，上述情况在真实数据中是不可能出现的。这里只是借此介绍一下这种思维。真实情况中，我们需要考虑删除哪一列信息可以使得损失最小？或者是通过变换数据就能使得损失信息更小？又如何度量信息的丢失量？原始数据的处理降维有哪些步骤？

坐标示例：

我们来看下面这张图，这是一个椭圆的点阵。椭圆上面有一个长轴和一个短轴。现在我们要表示点阵的主要变化趋势，就可以以长短轴（或者平行于长短轴）构建新的坐标系。在极端的情况下，短轴变成了一个点，那么长轴就能代表这个点阵的趋势和特点。这样，一个二维数据，就变成了一维。

基础知识储备

内积与投影：

内积运算，将两个向量映射为一个实数。其几何意义就是向量 A ，在向量 B 的投影长度。（下图是以二维向量为例，多维空间依然是如此。）

上式中，B 为单位向量

基：

同样以上图 B为例，B向量为（3，2）其表示的其实为在 X 轴的投影值为3 ，在Y轴的投影值为 2 。这其实加入了一个隐含信息，就是本坐标轴分别是以 X Y轴为方向的单位向量。这里的 X Y 轴其实就是我们所提到的基。只不过一般默认为（1，0）和（0，1）

所以呢，要描述一组向量，首先是要确定一组基。然后求这个向量在这组基中的投影即可。对基的要求是线性无关，并不一定非要正交。但是因为正交基有较好的性质，所以一般情况我们都是用正交基。

基变换

上面我们了解了基的原理。如果同样把（3，2）放到新基里面描述，那就是把向量和新基相乘即可。

如果是在描述中，有多个基呢？那就是与基阵相乘。

如何实现降维

上面的思路，我们都清楚了。那么我们如何通过基变换来降维呢？这里我们来举个例子。假设我们有一个矩阵如下。

为了处理方面，我们现在把每个字段都减去字段平均值，那么就变成了如下所示

表示在坐标上如下图

那么，我们现在想用一维坐标来表示，而且要求尽可能的保留原来的信息，我们需要如何选择方向（基）呢？（二维降一维）

思路就是，希望投影后的值尽可能的分散，避免重合。

协方差：

在概率论与统计学中，协方差用于衡量两个随机变量的联合变化程度。而方差则是协方差的一种特殊情况，即变量与自身的协方差。

期望：在概率论和统计学中，一个离散性随机变量的期望值（或数学期望，亦简称期望，物理学中称为期待值）是试验中每次可能的结果乘以其结果概率的总和。比如骰子的期望值为 1 1/6 +21/6 + …+ 61/6 = 35

协方差公式为：

其中，E(X) = u E(Y) = v

协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。如果X 与Y 是统计独立的，那么二者之间的协方差就是0

流程和步骤

第一步：标准化

把输入数据集变量的范围标准化，以使它们中的每一个均可以大致成比例的分析。简单说，就是要把存在较大差异的数据转变为可比较的数据。比如把 0-100 的变量转化为 0-1 的变量。这一步一般可以通过减去平均值，再除以每个变量值的标准差来完成。标准差公式如下

那么常用的标准化指标变量公式可为

第二步：协方差矩阵计算

这一步的目的是：了解输入数据集的变量是如何相对于平均值变化的。或者换句话说，是为了查看它们之间是否存在任何关系。因为有时候，变量间高度相关是因为它们包含大量的信息。因此，为了识别这些相关性，我们进行协方差矩阵计算。

协方差矩阵是p×p对称矩阵（其中p是维数），其所有可能的初始变量与相关联的协方差作为条目。

好了，现在我们知道协方差矩阵只不过是一个表，汇总了所有可能配对的变量间相关性。下面就是计算协方差矩阵的特征向量和特征值，以筛选主要成分。

第三步：计算协方差矩阵的特征向量和特征值，用以识别主成分

特征向量和特征值都是线性代数概念，需要从协方差矩阵计算得出，以便确定数据的主成分。开始解释这些概念之前，让我们首先理解主成分的含义

主成分是由初始变量的线性组合或混合构成的新变量。该组合中新变量（如主成分）之间彼此不相关，且大部分初始变量都被压缩进首个成分中。所以，10维数据会显示10个主成分，但是PCA试图在第一个成分中得到尽可能多的信息，然后在第二个成分中得到尽可能多的剩余信息，以此类推。

例如，假设你有一个10维数据，你最终将得到的内容如下面的屏幕图所示，其中第一个主成分包含原始数据集的大部分信息，而最后一个主成分只包含其中的很少部分。因此，以这种方式组织信息，可以在不丢失太多信息的情况下减少维度，而这需要丢弃携带较少信息的成分。

在这里，方差和信息间的关系是，线所承载的方差越大，数据点沿着它的分散也越大，沿着线的散点越多，它所携带的信息也越多。简单地说，只要把主成分看作是提供最佳角度来观察和评估数据的新轴，这样观测结果之间的差异就会更明显。

协方差矩阵的特征向量实际上是方差最多的轴的方向（或最多的信息），我们称之为主成分。通过特征值的顺序对特征向量进行排序，从最高到最低，你就得到了按重要性排序的主成分。

第四步：特征向量

正如我们在上一步中所看到的，计算特征向量并按其特征值依降序排列，使我们能够按重要性顺序找到主成分。在这个步骤中我们要做的，是选择保留所有成分还是丢弃那些重要性较低的成分（低特征值），并与其他成分形成一个向量矩阵，我们称之为特征向量。

因此，特征向量只是一个矩阵，其中包含我们决定保留的成分的特征向量作为列。这是降维的第一步，因为如果我们选择只保留n个特征向量（分量）中的p个，则最终数据集将只有p维。

第五步：沿主成分轴重新绘制数据

在前面的步骤中，除了标准化之外，你不需要更改任何数据，只需选择主成分，形成特征向量，但输入数据集时要始终与原始轴统一（即初始变量）。

这一步，也是最后一步，目标是使用协方差矩阵的特征向量去形成新特征向量，将数据从原始轴重新定位到由主成分轴中（因此称为主成分分析）。这可以通过将原始数据集的转置乘以特征向量的转置来完成。

优缺点

优点：化繁为简，降低了计算量。

缺点：一定程度上损失了精度。并且只能处理“线性问题”，这是一种线性降维技术、

总结

假设我们拿到了一份数据集，有m个样本，每个样本由n个特征（变量）来描述，那么我们可以按照以下的步骤进行降维：

1、将数据集中的每个样本作为列向量，按列排列构成一个n行m列的矩阵；

2、将矩阵的每一个行向量（每个变量）都减去该行向量的均值，从而使得新行向量的均值为0，得到新的数据集矩阵X；

3、求X的协方差矩阵，并求出协方差矩阵的特征值λ和单位特征向量e；

4、按照特征值从大到小的顺序，将单位特征向量排列成矩阵，得到转换矩阵P，并按PX计算出主成分矩阵；

5、用特征值计算方差贡献率和方差累计贡献率，取方差累计贡献率超过85%的前k个主成分，或者想降至特定的k维，直接取前k个主成分。

参考文章： https://blogcsdnnet/Murray_/article/details/79945148

参考文章： https://wwwcnblogscom/Luv-GEM/p/10765574html

参考文章： https://wwwssffxcom/wangzhanjianshe/40715html

主成分分析与因子分析及SPSS实现

一、主成分分析

（1）问题提出在问题研究中，为了不遗漏和准确起见，往往会面面俱到，取得大量的指标来进行分析。比如为了研究某种疾病的影响因素，我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标。如果将这些指标直接纳入多元统计分析，不仅会使模型变得复杂不稳定，而且还有可能因为变量之间的多重共线性引起较大的误差。有没有一种办法能对信息进行浓缩，减少变量的个数，同时消除多重共线性？这时，主成分分析隆重登场。（2）主成分分析的原理主成分分析的本质是坐标的旋转变换，将原始的n个变量进行重新的线性组合，生成n个新的变量，他们之间互不相关，称为n个“成分”。同时按照方差最大化的原则，保证第一个成分的方差最大，然后依次递减。这n个成分是按照方差从大到小排列的，其中前m个成分可能就包含了原始变量的大部分方差（及变异信息）。那么这m个成分就成为原始变量的“主成分”，他们包含了原始变量的大部分信息。注意得到的主成分不是原始变量筛选后的剩余变量，而是原始变量经过重新组合后的“综合变量”。我们以最简单的二维数据来直观的解释主成分分析的原理。假设现在有两个变量X1、X2，在坐标上画出散点图如下：可见，他们之间存在相关关系，如果我们将坐标轴整体逆时针旋转45°，变成新的坐标系Y1、Y2，如下图：根据坐标变化的原理，我们可以算出：Y1 = sqrt(2)/2 X1 + sqrt(2)/2 X2Y2 = sqrt(2)/2 X1 – sqrt(2)/2 X2其中sqrt(x)为x的平方根。通过对X1、X2的重新进行线性组合，得到了两个新的变量Y1、Y2。此时，Y1、Y2变得不再相关，而且Y1方向变异（方差）较大，Y2方向的变异（方差）较小，这时我们可以提取Y1作为X1、X2的主成分，参与后续的统计分析，因为它携带了原始变量的大部分信息。至此我们解决了两个问题：降维和消除共线性。对于二维以上的数据，就不能用上面的几何图形直观的表示了，只能通过矩阵变换求解，但是本质思想是一样的。

二、因子分析（一）原理和方法：因子分析是主成分分析的扩展。在主成分分析过程中，新变量是原始变量的线性组合，即将多个原始变量经过线性（坐标）变换得到新的变量。因子分析中，是对原始变量间的内在相关结构进行分组，相关性强的分在一组，组间相关性较弱，这样各组变量代表一个基本要素（公共因子）。通过原始变量之间的复杂关系对原始变量进行分解，得到公共因子和特殊因子。将原始变量表示成公共因子的线性组合。其中公共因子是所有原始变量中所共同具有的特征，而特殊因子则是原始变量所特有的部分。因子分析强调对新变量（因子）的实际意义的解释。举个例子：比如在市场调查中我们收集了食品的五项指标（x1-x5）:味道、价格、风味、是否快餐、能量，经过因子分析，我们发现了：x1 = 002 z1 + 099 z2 + e1x2 = 094 z1 – 001 z2 + e2x3 = 013 z1 + 098 z2 + e3x4 = 084 z1 + 042 z2 + e4x5 = 097 z1 – 002 z2 + e1（以上的数字代表实际为变量间的相关系数，值越大，相关性越大）第一个公因子z1主要与价格、是否快餐、能量有关，代表“价格与营养”第二个公因子z2主要与味道、风味有关，代表“口味”e1-5是特殊因子，是公因子中无法解释的，在分析中一般略去。同时，我们也可以将公因子z1、z2表示成原始变量的线性组合，用于后续分析。（二）使用条件：（1）样本量足够大。通常要求样本量是变量数目的5倍以上，且大于100例。（2）原始变量之间具有相关性。如果变量之间彼此独立，无法使用因子分析。在SPSS中可用KMO检验和Bartlett球形检验来判断。（3）生成的公因子要有实际的意义，必要时可通过因子旋转（坐标变化）来达到。三、主成分分析和因子分析的联系与区别联系：两者都是降维和信息浓缩的方法。生成的新变量均代表了原始变量的大部分信息且互相独立，都可以用于后续的回归分析、判别分析、聚类分析等等。区别：（1）主成分分析是按照方差最大化的方法生成的新变量，强调新变量贡献了多大比例的方差，不关心新变量是否有明确的实际意义。（2）因子分析着重要求新变量具有实际的意义，能解释原始变量间的内在结构。SPSS没有提供单独的主成分分析方法，而是混在因子分析当中，下面通过一个例子来讨论主成分分析与因子分析的实现方法及相关问题。一、问题提出男子十项全能比赛包含100米跑、跳远、跳高、撑杆跳、铅球、铁饼、标枪、400米跑、1500米跑、110米跨栏十个项目，总分为各个项目得分之和。为了分析十项全能主要考察哪些方面的能力，以便有针对性的进行训练，研究者收集了134个顶级运动员的十项全能成绩单，将通过因子分析来达到分析目的。二、分析过程变量视图：数据视图（部分）：菜单选择（分析->降维->因子分析）：

打开因子分析的主界面，将十项成绩选入”变量“框中（不要包含总分），如下：点击”描述“按钮，打开对话框，选中”系数“和”KMO和Bartlett球形度检验“：

上图相关解释：”系数“：为变量之间的相关系数阵列，可以直观的分析相关性。”KMO和Bartlett球形度检验“：用于定量的检验变量之间是否具有相关性。点击”继续“，回到主界面，点击”抽取“，打开对话框。”方法“ =>”主成分“，”输出“=>”未旋转的因子解“和”碎石图“，”抽取“=>”基于特征值“，其余选择默认。

解释：①因子抽取的方法：选取默认的主成分法即可，其余方法的计算结果可能有所差异。②输出：”未旋转的因子解”极为主成分分析结果。碎石图有助于我们判断因子的重要性（详细介绍见后面）。③抽取：为抽取主成分（因子）的方法，一般是基于特征值大于1，默认即可。点击”继续“，回到主界面，点击”确定“，进入分析。输出的主要表格如下：（1）相关性检验因子分析要求变量之间有相关性，所以首先要进行相关性检验。首先输出的是变量之间的相关系数矩阵：

可以直观的看到，变量之间有相关性。但需要检验，接着输出的是相关性检验：上图有两个指标：第一个是KMO值，一般大于07就说明不了之间有相关性了。第二个是Bartlett球形度检验，P值<0001。综合两个指标，说明变量之间存在相关性，可以进行因子分析。否则，不能进行因子分析。（2）提取主成分和公因子接下来输出主成分结果：

这就是主成分分析的结果，表中第一列为10个成分；第二列为对应的”特征值“，表示所解释的方差的大小；第三列为对应的成分所包含的方差占总方差的百分比；第四列为累计的百分比。一般来说，选择”特征值“大于1的成分作为主成分，这也是SPSS默认的选择。在本例中，成分1和2的特征值大于1，他们合计能解释71034%的方差，还算不错。所以我们可以提取1和2作为主成分，抓住了主要矛盾，其余成分包含的信息较少，故弃去。下面，输出碎石图，如下：碎石图来源于地质学的概念。在岩层斜坡下方往往有很多小的碎石，其地质学意义不大。碎石图以特征值为纵轴，成分为横轴。前面陡峭的部分特征值大，包含的信息多，后面平坦的部分特征值小，包含的信息也小。由图直观的看出，成分1和2包含了大部分信息，从3开始就进入平台了。接下来，输出提取的成分矩阵：

上表中的数值为公因子与原始变量之间的相关系数，绝对值越大，说明关系越密切。公因子1和9个运动项目都正相关（注意跑步运动运动的计分方式，时间越短，分数越高），看来只能称为“综合运动”因子了。公因子2与铁饼、铅球正相关，与1500米跑、400米跑负相关，这究竟代表什么意思呢？看来只能成为“不知所云”因子了。（三）因子旋转前面提取的两个公因子一个是大而全的“综合因子”，一个不知所云，得到这样的结果，无疑是分析的失败。不过，不要灰心，我们可以通过因子的旋转来获得更好的解释。在主界面中点击“旋转”按钮，打开对话框，“方法”=>“最大方差法”，“输出”=>“旋转解”。

点击“继续”，回到主界面点击“确认”进行分析。输出结果如下：这是选择后的成分矩阵。经过旋转，可以看出：公因子1得分越高，所有的跑步和跨栏成绩越差，而跳远、撑杆跳等需要助跑类项目的成绩也越差，所以公因子1代表的是奔跑能力的反向指标，可称为“奔跑能力”。公因子2与铁饼和铅球的正相关性很高，与标枪、撑杆跳等需要上肢力量的项目也正相关，所以该因子可以成为“上肢力量”。经过旋转，可以看出公因子有了更合理的解释。（四）结果的保存在最后，我们还要将公因子储存下来供后续使用。点击“得分”按钮，打开对话框，选中“保存为变量”，方法采用默认的“回归”方法，同时选中“显示因子得分系数矩阵”。

SPSS会自动生成2个新变量，分别为公因子的取值，放在数据的最后。同时会输出一个因子系数表格：

由上图，我们可以写出公因子的表达式（用F1、F2代表两个公因子，Z1~Z10分别代表原始变量）：F1 = -016Z1+0161Z2+0145Z3+0199Z4-0131Z5-0167Z6+0137Z7+0174Z8+0131Z9-0037Z10F2同理，略去。注意，这里的变量Z1~Z10，F1、F2不再是原始变量，而是标准正态变换后的变量。

在前面我们学习了一种有监督的降维方法——线性判别分析（Linear Dscriminant Analysis，LDA）。LDA不仅是一种数据压缩方法还是一种分类算法，LDA将一个高维空间中的数据投影到一个低维空间中去，通过最小化投影后各个类别的类内方差和类间均值差来寻找最佳的投影空间。

本文介绍的主成分分析（Principe Component Analysis，PCA）也是一种降维技术，与LDA不同的是，PCA是一种无监督降维技术，因此PCA的主要思想也与LDA不同。LDA是一种有监督的分类兼降维技术，因此其最大化均值差最小化类内差的思想够保证在降维后各个类别依然能够很好地分开。但PCA只用来降维而无需分类，因此PCA需要考虑的是如何在降维压缩数据后尽可能的减少数据信息的损失。在PCA中使用协方差来表示信息量的多少，至于为什么能这么表示后面再进行介绍。下面我们从一些基本的线代知识开始。

在进行数据分析时我们的数据样本经常被抽象为矩阵中的一组向量，了解一些线代基础知识理解PCA非常重要，但在这里我们并不准备也不可能将所有的线代知识都罗列以便，因此这里我们仅会复习一些对理解PCA较为重要的东西。更多线代的内容可参考下面几个链接：

为了方便，我们这里以一个二维平面为例。

在前面我们说了，在数据处理时我们经常讲一个样本数据当作一个向量。在二维平面中，一个向量从不同的角度有不同的理解方式，例如对于向量 (-2, 3) T ：

在我们描述任何东西的时候其实都是选择了一个参照系的，也即事物都是相对的，最简单的运动与静止（以静止的事物为参照），说一个有点意思的——人，人其实也是放在一个参考系中的，我们可以将其理解为生物种类系统，抛开这个大的系统去独立的定义人是很难让人理解的。向量也是这样的，虽然我们前面没有指明，但是上面的向量其实是在一个默认坐标系（或称为空间）中的，也即x，y轴，但是在线性代数中我们称其为基。在线代中任何空间都是由一组线性无关的（一维空间由一个基组成）基向量组成。这些基向量可以组成空间中的任何向量。

现在假设我们有如下一个矩阵相乘的式子：

因此，上面的例子可以有两种理解方式：

（1）如果我们将值全为1对角方阵视为标准坐标系，则它表示在 i=(1, -2) T 和 j=(3, 0) T 这组基底下的坐标 (-1, 2) T 在基底 (1, 0) T 、(0, 1) T 下的坐标，如下：

当我们讨论向量 (-1, 2) T 时，都隐含了一个默认的基向量假设：沿着x轴方向长度为1的 i，沿着y轴长度为1的j。

但是，(-1, 2) T 可以是任何一组基底下的向量。例如，他可能是i'=(2,1) T , j'=(-1, 1) T 这组基下的一个向量。此时他在我们默认坐标系 i=(1, 0) T ，j=(0, 1) T 下的计算过程如下：

我们可以从另一个角度理解基地变换的过程：我们先 误认为 (-1, 2) T 是坐标系i=(1, 0) T ，j=(0, 1) T 下的坐标，此时我们通过线性变换[[2, -1], [1, 1]]（每个嵌套列表看做一行）把坐标轴i，j（基坐标）分别变换到了新的位置 i1=(2, 1) T , j1=(-1, 1) T （他们也是用默认坐标系表示的），即[2, -1], [1, 1]]。此时我们把“误解”转换成了真正的向量。如下：

在上面我们说了矩阵是一种变换，现在我们继续从这个角度来理解特征值和特征向量。为了方便理解，我们在这里做一个类比——将变换看作物理中的作用力。我们知道一个力必须有速度和方向，而矩阵对一个向量施加的变换也是一样的。考虑一下特征向量的定义：

上面介绍了一些基本的线性代数相关的知识，下面开始介绍PCA的原理。

上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示，而且如果基的数量少于向量本身的维数，则可以达到降维的效果。但是我们还没有回答一个最最关键的问题：如何选择基才是最优的。或者说，如果我们有一组N维向量，现在要将其降到K维（K小于N），那么我们应该如何选择K个基才能最大程度保留原有的信息？

要完全数学化这个问题非常繁杂，这里我们用一种非形式化的直观方法来看这个问题。

为了避免过于抽象的讨论，我们仍以一个具体的例子展开。假设我们的数据由五条记录组成，将它们表示成矩阵形式：

其中每一列为一条数据记录，而一行为一个字段。为了后续处理方便，我们首先将每个字段内所有值都减去字段均值，其结果是将每个字段都变为均值为0（这样做的道理和好处后面会看到）。中心化的数据为：

通过上一节对基变换的讨论我们知道，这个问题实际上是要在二维平面中选择一个方向，将所有数据都投影到这个方向所在直线上，用投影值表示原始记录。这是一个实际的二维降到一维的问题。

那么如何选择这个方向（或者说基）才能尽量保留最多的原始信息呢？一种直观的看法是：希望投影后的投影值尽可能分散。

以上图为例，可以看出如果向x轴投影，那么最左边的两个点会重叠在一起，中间的两个点也会重叠在一起，于是本身四个各不相同的二维点投影后只剩下两个不同的值了，这是一种严重的信息丢失，同理，如果向y轴投影最上面的两个点和分布在x轴上的两个点也会重叠。所以看来x和y轴都不是最好的投影选择。我们直观目测，如果向通过第一象限和第三象限的斜线投影，则五个点在投影后还是可以区分的。

下面，我们用数学方法表述这个问题。

对于上面二维降成一维的问题来说，找到那个使得方差最大的方向就可以了。不过对于更高维，还有一个问题需要解决。考虑三维降到二维问题。与之前相同，首先我们希望找到一个方向使得投影后方差最大，这样就完成了第一个方向的选择，继而我们选择第二个投影方向。

如果我们还是单纯只选择方差最大的方向，很明显，这个方向与第一个方向应该是“几乎重合在一起”，显然这样的维度是没有用的，因此，应该有其他约束条件。 从直观上说，让两个字段尽可能表示更多的原始信息，我们是不希望它们之间存在（线性）相关性的，因为相关性意味着两个字段不是完全独立，必然存在重复表示的信息。

可以看到，在字段均值为0的情况下，两个字段的协方差简洁的表示为其内积除以元素数m。

当协方差为0时，表示两个字段完全独立。为了让协方差为0，我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。

至此，我们得到了降维问题的优化目标：将一组N维向量降为K维（K大于0，小于N），其目标是选择K个单位（模为1）正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0，而字段的方差则尽可能大（在正交的约束下，取最大的K个方差）。

上面我们导出了优化目标，但是这个目标似乎不能直接作为操作指南（或者说算法），因为它只说要什么，但根本没有说怎么做。所以我们要继续在数学上研究计算方案。

我们看到，最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示，仔细观察发现，两者均可以表示为内积的形式，而内积又与矩阵相乘密切相关。于是我们来了灵感：

假设我们只有a和b两个字段，那么我们将它们按行组成矩阵X：

然后我们用X乘以X的转置，并乘上系数1/m：

根据矩阵相乘的运算法则，这个结论很容易被推广到一般情况：

设我们有m个n维数据记录，将其按列排成n乘m的矩阵X，设C=1/m(XX T )，则C是一个对称矩阵，其对角线分别个各个字段的方差，而第i行j列和j行i列元素相同，表示i和j两个字段的协方差。

根据上述推导，我们发现要达到优化目前，等价于将协方差矩阵对角化：即除对角线外的其它元素化为0，并且在对角线上将元素按大小从上到下排列，这样我们就达到了优化目的 。这样说可能还不是很明晰，我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系：

设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为P对X做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

现在所有焦点都聚焦在了协方差矩阵对角化问题上，有时，我们真应该感谢数学家的先行，因为矩阵对角化在线性代数领域已经属于被玩烂了的东西，所以这在数学上根本不是问题。

由上文知道，协方差矩阵C是一个是对称矩阵，在线性代数上，实对称矩阵有一系列非常好的性质：

1）实对称矩阵不同特征值对应的特征向量必然正交。

2）设特征向量λ重数为r，则必然存在r个线性无关的特征向量对应于λ，因此可以将这r个特征向量单位正交化。

则对协方差矩阵C有如下结论：

以上结论不再给出严格的数学证明，对证明感兴趣的朋友可以参考线性代数书籍关于“实对称矩阵对角化”的内容。

到这里，我们发现我们已经找到了需要的矩阵P：P = E T

P是协方差矩阵的特征向量单位化后按行排列出的矩阵，其中每一行都是C的一个特征向量。如果设P按照Λ中特征值的从大到小，将特征向量从上到下排列，则用P的前K行组成的矩阵乘以原始数据矩阵X，就得到了我们需要的降维后的数据矩阵Y。

PCA的特征向量的求解除了使用上述最大化方差的矩阵分解方法，还可以使用最小化损失法，具体可参见：机器学习中的数学(4)-线性判别分析（LDA）, 主成分分析(PCA) 。

总结一下PCA的算法步骤：

设有m条n维数据。

LDA和PCA都用于降维，两者有很多相同，也有很多不同的地方，因此值得好好的比较一下两者的降维异同点。

首先我们看看相同点：

我们接着看看不同点：

参考：

PCA的数学原理

线性代数的直觉

线性判别分析LDA原理总结

PCA是一种无参数的数据降维方法，在机器学习中很常用，这篇文章主要从三个角度来说明PCA是怎么降维的分别是方差角度，特征值和特征向量以及SVD奇异值分解。

推导主要来源于下面网址的这篇文章，是通过方差和协方差矩阵来说明：

http://blogcodinglabsorg/articles/pca-tutorialhtml

PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。

在上面网址的文章中，从头到尾发明了一遍PCA我觉得很有借鉴意义。我们知道PCA是一种数据降维的方法，在降低维度的过程中，我们当然想要保留更多的特征，PCA就是经过数学推导，保留最多特征同时降维的方法。

在推导之前要先知道几个基础知识：

两个维数相同的向量的内积被定义为：

假设A和B是两个n维向量，我们知道n维向量可以等价表示为n维空间中的一条从原点发射的有向线段，为了简单起见我们假设A和B均为二维向量，则A=(x 1 ,y 1 ),B=(x 2 ,y 2 )。则在二维平面上A和B可以用两条发自原点的有向线段表示，见下图：

到这里还是看不出内积和这东西有什么关系，不过如果我们将内积表示为另一种我们熟悉的形式：

下面我们继续在二维空间内讨论向量。上文说过，一个二维向量可以对应二维笛卡尔直角坐标系中从原点出发的一个有向线段。例如下面这个向量：

在代数表示方面，我们经常用线段终点的点坐标表示向量，例如上面的向量可以表示为(3,2)，这是我们再熟悉不过的向量表示。

不过我们常常忽略， 只有一个(3,2)本身是不能够精确表示一个向量的。 我们仔细看一下， 这里的3实际表示的是向量在x轴上的投影值是3，在y轴上的投影值是2。 也就是说我们其实 隐式引入了一个定义：以x轴和y轴上正方向长度为1的向量为标准。 那么一个向量(3,2)实际是说在x轴投影为3而y轴的投影为2。注意投影是一个矢量，所以可以为负。

更正式的说， 向量(x,y)实际上表示线性组合 ：

我们之所以默认选择(1,0)和(0,1)为基，当然是比较方便，因为它们分别是x和y轴正方向上的单位向量，因此就使得二维平面上点坐标和向量一一对应，非常方便。 但实际上任何两个线性无关的二维向量都可以成为一组基， 所谓线性无关在二维平面内可以直观认为是两个不在一条直线上的向量。

例如，(1,1)和(-1,1)也可以成为一组基。一般来说，我们希望基的模是1，因为从内积的意义可以看到，如果基的模是1，那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了！实际上，对应任何一个向量我们总可以找到其同方向上模为1的向量，只要让两个分量分别除以模就好了。例如，上面的基可以变为(1/√2，1/√2)和(-1/√2，1/√2)

现在，我们想获得(3,2)在新基上的坐标，即在两个方向上的投影矢量值，那么根据内积的几何意义，我们只要分别计算(3,2)和两个基的内积，不难得到新的坐标为(5/√2，-1/√2)。下图给出了新的基以及(3,2)在新基上坐标值的示意图：

另外这里要注意的是，我们列举的例子中基是正交的（即内积为0，或直观说相互垂直），但可以成为一组基的唯一要求就是线性无关，非正交的基也是可以的。不过因为正交基有较好的性质， 所以一般使用的基都是正交的。

一般的，如果我们有M个N维向量，想将其变换为由R个N维向量表示的新空间中，那么首先将R个基按行组成矩阵A，然后将向量按列组成矩阵B，那么两矩阵的乘积AB就是变换结果，其中AB的第m列为A中第m列变换后的结果。（新基按行，向量按列）

特别要注意的是，这里R可以小于N，而R决定了变换后数据的维数。也就是说， 我们可以将一N维数据变换到更低维度的空间中去， 变换后的维度取决于基的数量。因此这种矩阵相乘的表示也可以表示降维变换。

最后，上述分析同时给矩阵相乘找到了一种物理解释： 两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。 更抽象的说，一个矩阵可以表示一种线性变换。很多同学在学线性代数时对矩阵相乘的方法感到奇怪，但是如果明白了矩阵相乘的物理意义，其合理性就一目了然了。

我们从上面的矩阵乘法与基变换可以看出，当新基的维数小于原来的维数时可以做到数据的降维，但是究竟如何选择新基就是我们现在面临的问题，我们想要选择一个维数更小的新基，同时新基保留有更多的信息。我们知道矩阵向新基投影的形式，也就是PCA是将一组N维的特征投影到K维（K<N）同时保留更多的特征。

那么怎么衡量更多的特征，也就是投影后尽量少的重叠，投影值尽可能分散。

这种投影值的分散数学上可以用方差表示。方差公式这里不表， 所以PCA现在的问题就变成了，寻找K维的新基，使得数据变换到这组基上后方差值最大。

从二维到一维的降维，只需要找到一个一维基使得方差最大，但是三维降到二维呢？我们需要找到两个基让这个三维数据投影到两个基上，如果我们找方差最大的两个基，会发现他们完全一样或者线性相关，这和一个基没什么区别，不能表达更多的信息，所以我们需要添加限制条件，我们希望这两个基彼此线性无关，扩展到K个基也是一样。

在数学上使用协方差表示两个向量的相关性，在我们将均值归一化为0后，协方差可以表示为：

=\frac{1}{m}\sum_{i=1}^{m}a_ib_i)

m为向量的元素数。可以看到，在字段均值为0的情况下，两个字段的协方差简洁的表示为其内积除以元素数m。

假设我们只有a和b两个特征，那么我们将它们按行组成矩阵X：

然后我们用X乘以X的转置，并乘上系数1/m：

这个矩阵对角线上的两个元素分别是两个字段的方差，而其它元素是a和b的协方差。两者被统一到了一个矩阵的。

根据矩阵相乘的运算法则，这个结论很容易被推广到一般情况：

设我们有m个n维数据记录，将其按列排成n乘m的矩阵X，设C=1/mXX T ，则C是一个对称矩阵，其对角线分别个各个字段的方差，而第i行j列和j行i列元素相同，表示i和j两个字段的协方差。

根据上述推导，我们发现要达到优化目前，等价于将协方差矩阵对角化：即除对角线外的其它元素化为0，并且在对角线上将元素按大小从上到下排列，这样我们就达到了优化目的。这样说可能还不是很明晰，我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系：

设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

现在事情很明白了！我们要找的P不是别的，而是能让原始协方差矩阵对角化的P。换句话说， 优化目标变成了寻找一个矩阵P，满足PCP T 是一个对角矩阵，并且对角元素按从大到小依次排列，那么P的前K行就是要寻找的基，用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。

由上文知道，协方差矩阵C是一个是对称矩阵，在线性代数上，实对称矩阵有一系列非常好的性质：

1）实对称矩阵不同特征值对应的特征向量必然正交。

2）设特征向量λ重数为r，则必然存在r个线性无关的特征向量对应于λ，因此可以将这r个特征向量单位正交化。

由上面两条可知，一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量，设这n个特征向量为e 1 ,e 2 ,,e n ，我们将其按列组成矩阵：

则对协方差矩阵C有如下结论：

其中Λ为对角矩阵，其对角元素为各特征向量对应的特征值（可能有重复）。以上结论不再给出严格的数学证明，对证明感兴趣的朋友可以参考线性代数书籍关于“实对称矩阵对角化”的内容。

到这里，我们发现我们已经找到了需要的矩阵P：

至此我们完成了整个PCA的数学原理讨论。

在我的文章特征值和特征向量中说过，特征值反映了矩阵对于特征向量的拉伸程度，只有拉伸而没有旋转，也就是在特征向量方向上的作用程度，所以在PCA中我们选取前K个特征向量组成新基进行投影，就是因为原特征在前K个特征向量有最大的作用程度，投影过后可以保留更多的信息，作用程度是用特征值表示的，所以我们可以使用下面的式子表示贡献率，贡献率是表示投影后信息的保留程度的变量，可以用下面的式子表示：

也就是特征值的总和比上前K个特征值，一般来说贡献率要大于85%。

上面的推导中我们看到

其实就是对于D的奇异值分解。但是其实两者还有一些区别：

1） SVD可以获取另一个方向上的主成分，而PCA只能获得单个方向上的主成分：

隐语义索引（Latent semantic indexing，简称LSI）通常建立在SVD的基础上，通过低秩逼近达到降维的目的。

注意到PCA也能达到降秩的目的，但是PCA需要进行零均值化，且丢失了矩阵的稀疏性。

通过SVD可以得到PCA相同的结果，但是SVD通常比直接使用PCA更稳定。因为PCA需要计算X T X的值，对于某些矩阵，求协方差时很可能会丢失一些精度。例如Lauchli矩阵：

1）将原始数据按列组成n行m列矩阵X

2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值

3）求出协方差矩阵

4）求出协方差矩阵的特征值及对应的特征向量

5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P

6）Y=PX即为降维到k维后的数据

courser里吴恩达的PCA的习题就不错。

欢迎分享，转载请注明来源：品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1992608.html

如何理解主成分分析法 （PCA）

随机推荐

哪一季天桥风云最好看？

伊思芙洗发水怎么样

美白身体乳有哪些牌子是特别好用的？

润唇膏可以很好地保护我们的嘴唇，全球有哪些唇膏比较好用？

爽肤水和乳液之间一定要用精华露吗？

油性皮肤用什么洗脸最好？

sk2套装有两瓶水,一瓶乳液怎么使用

发表评论

如何理解主成分分析法（PCA）