主成分分析（PCA）_美容护肤

在前面我们学习了一种有监督的降维方法——线性判别分析（Linear Dscriminant Analysis，LDA）。LDA不仅是一种数据压缩方法还是一种分类算法，LDA将一个高维空间中的数据投影到一个低维空间中去，通过最小化投影后各个类别的类内方差和类间均值差来寻找最佳的投影空间。

本文介绍的主成分分析（Principe Component Analysis，PCA）也是一种降维技术，与LDA不同的是，PCA是一种无监督降维技术，因此PCA的主要思想也与LDA不同。LDA是一种有监督的分类兼降维技术，因此其最大化均值差最小化类内差的思想够保证在降维后各个类别依然能够很好地分开。但PCA只用来降维而无需分类，因此PCA需要考虑的是如何在降维压缩数据后尽可能的减少数据信息的损失。在PCA中使用协方差来表示信息量的多少，至于为什么能这么表示后面再进行介绍。下面我们从一些基本的线代知识开始。

在进行数据分析时我们的数据样本经常被抽象为矩阵中的一组向量，了解一些线代基础知识理解PCA非常重要，但在这里我们并不准备也不可能将所有的线代知识都罗列以便，因此这里我们仅会复习一些对理解PCA较为重要的东西。更多线代的内容可参考下面几个链接：

为了方便，我们这里以一个二维平面为例。

在前面我们说了，在数据处理时我们经常讲一个样本数据当作一个向量。在二维平面中，一个向量从不同的角度有不同的理解方式，例如对于向量 (-2, 3) T ：

在我们描述任何东西的时候其实都是选择了一个参照系的，也即事物都是相对的，最简单的运动与静止（以静止的事物为参照），说一个有点意思的——人，人其实也是放在一个参考系中的，我们可以将其理解为生物种类系统，抛开这个大的系统去独立的定义人是很难让人理解的。向量也是这样的，虽然我们前面没有指明，但是上面的向量其实是在一个默认坐标系（或称为空间）中的，也即x，y轴，但是在线性代数中我们称其为基。在线代中任何空间都是由一组线性无关的（一维空间由一个基组成）基向量组成。这些基向量可以组成空间中的任何向量。

现在假设我们有如下一个矩阵相乘的式子：

因此，上面的例子可以有两种理解方式：

（1）如果我们将值全为1对角方阵视为标准坐标系，则它表示在 i=(1, -2) T 和 j=(3, 0) T 这组基底下的坐标 (-1, 2) T 在基底 (1, 0) T 、(0, 1) T 下的坐标，如下：

当我们讨论向量 (-1, 2) T 时，都隐含了一个默认的基向量假设：沿着x轴方向长度为1的 i，沿着y轴长度为1的j。

但是，(-1, 2) T 可以是任何一组基底下的向量。例如，他可能是i'=(2,1) T , j'=(-1, 1) T 这组基下的一个向量。此时他在我们默认坐标系 i=(1, 0) T ，j=(0, 1) T 下的计算过程如下：

我们可以从另一个角度理解基地变换的过程：我们先 误认为 (-1, 2) T 是坐标系i=(1, 0) T ，j=(0, 1) T 下的坐标，此时我们通过线性变换[[2, -1], [1, 1]]（每个嵌套列表看做一行）把坐标轴i，j（基坐标）分别变换到了新的位置 i1=(2, 1) T , j1=(-1, 1) T （他们也是用默认坐标系表示的），即[2, -1], [1, 1]]。此时我们把“误解”转换成了真正的向量。如下：

在上面我们说了矩阵是一种变换，现在我们继续从这个角度来理解特征值和特征向量。为了方便理解，我们在这里做一个类比——将变换看作物理中的作用力。我们知道一个力必须有速度和方向，而矩阵对一个向量施加的变换也是一样的。考虑一下特征向量的定义：

上面介绍了一些基本的线性代数相关的知识，下面开始介绍PCA的原理。

上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示，而且如果基的数量少于向量本身的维数，则可以达到降维的效果。但是我们还没有回答一个最最关键的问题：如何选择基才是最优的。或者说，如果我们有一组N维向量，现在要将其降到K维（K小于N），那么我们应该如何选择K个基才能最大程度保留原有的信息？

要完全数学化这个问题非常繁杂，这里我们用一种非形式化的直观方法来看这个问题。

为了避免过于抽象的讨论，我们仍以一个具体的例子展开。假设我们的数据由五条记录组成，将它们表示成矩阵形式：

其中每一列为一条数据记录，而一行为一个字段。为了后续处理方便，我们首先将每个字段内所有值都减去字段均值，其结果是将每个字段都变为均值为0（这样做的道理和好处后面会看到）。中心化的数据为：

通过上一节对基变换的讨论我们知道，这个问题实际上是要在二维平面中选择一个方向，将所有数据都投影到这个方向所在直线上，用投影值表示原始记录。这是一个实际的二维降到一维的问题。

那么如何选择这个方向（或者说基）才能尽量保留最多的原始信息呢？一种直观的看法是：希望投影后的投影值尽可能分散。

以上图为例，可以看出如果向x轴投影，那么最左边的两个点会重叠在一起，中间的两个点也会重叠在一起，于是本身四个各不相同的二维点投影后只剩下两个不同的值了，这是一种严重的信息丢失，同理，如果向y轴投影最上面的两个点和分布在x轴上的两个点也会重叠。所以看来x和y轴都不是最好的投影选择。我们直观目测，如果向通过第一象限和第三象限的斜线投影，则五个点在投影后还是可以区分的。

下面，我们用数学方法表述这个问题。

对于上面二维降成一维的问题来说，找到那个使得方差最大的方向就可以了。不过对于更高维，还有一个问题需要解决。考虑三维降到二维问题。与之前相同，首先我们希望找到一个方向使得投影后方差最大，这样就完成了第一个方向的选择，继而我们选择第二个投影方向。

如果我们还是单纯只选择方差最大的方向，很明显，这个方向与第一个方向应该是“几乎重合在一起”，显然这样的维度是没有用的，因此，应该有其他约束条件。 从直观上说，让两个字段尽可能表示更多的原始信息，我们是不希望它们之间存在（线性）相关性的，因为相关性意味着两个字段不是完全独立，必然存在重复表示的信息。

可以看到，在字段均值为0的情况下，两个字段的协方差简洁的表示为其内积除以元素数m。

当协方差为0时，表示两个字段完全独立。为了让协方差为0，我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。

至此，我们得到了降维问题的优化目标：将一组N维向量降为K维（K大于0，小于N），其目标是选择K个单位（模为1）正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0，而字段的方差则尽可能大（在正交的约束下，取最大的K个方差）。

上面我们导出了优化目标，但是这个目标似乎不能直接作为操作指南（或者说算法），因为它只说要什么，但根本没有说怎么做。所以我们要继续在数学上研究计算方案。

我们看到，最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示，仔细观察发现，两者均可以表示为内积的形式，而内积又与矩阵相乘密切相关。于是我们来了灵感：

假设我们只有a和b两个字段，那么我们将它们按行组成矩阵X：

然后我们用X乘以X的转置，并乘上系数1/m：

根据矩阵相乘的运算法则，这个结论很容易被推广到一般情况：

设我们有m个n维数据记录，将其按列排成n乘m的矩阵X，设C=1/m(XX T )，则C是一个对称矩阵，其对角线分别个各个字段的方差，而第i行j列和j行i列元素相同，表示i和j两个字段的协方差。

根据上述推导，我们发现要达到优化目前，等价于将协方差矩阵对角化：即除对角线外的其它元素化为0，并且在对角线上将元素按大小从上到下排列，这样我们就达到了优化目的 。这样说可能还不是很明晰，我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系：

设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为P对X做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

现在所有焦点都聚焦在了协方差矩阵对角化问题上，有时，我们真应该感谢数学家的先行，因为矩阵对角化在线性代数领域已经属于被玩烂了的东西，所以这在数学上根本不是问题。

由上文知道，协方差矩阵C是一个是对称矩阵，在线性代数上，实对称矩阵有一系列非常好的性质：

1）实对称矩阵不同特征值对应的特征向量必然正交。

2）设特征向量λ重数为r，则必然存在r个线性无关的特征向量对应于λ，因此可以将这r个特征向量单位正交化。

则对协方差矩阵C有如下结论：

以上结论不再给出严格的数学证明，对证明感兴趣的朋友可以参考线性代数书籍关于“实对称矩阵对角化”的内容。

到这里，我们发现我们已经找到了需要的矩阵P：P = E T

P是协方差矩阵的特征向量单位化后按行排列出的矩阵，其中每一行都是C的一个特征向量。如果设P按照Λ中特征值的从大到小，将特征向量从上到下排列，则用P的前K行组成的矩阵乘以原始数据矩阵X，就得到了我们需要的降维后的数据矩阵Y。

PCA的特征向量的求解除了使用上述最大化方差的矩阵分解方法，还可以使用最小化损失法，具体可参见：机器学习中的数学(4)-线性判别分析（LDA）, 主成分分析(PCA) 。

总结一下PCA的算法步骤：

设有m条n维数据。

LDA和PCA都用于降维，两者有很多相同，也有很多不同的地方，因此值得好好的比较一下两者的降维异同点。

首先我们看看相同点：

我们接着看看不同点：

参考：

PCA的数学原理

线性代数的直觉

线性判别分析LDA原理总结

EF-Tu、EF-Ts以及EF-G（其中EF-Tu和EF-Ts可以复合为EF-T）3个原始因子。基于主成分模型的主成分分析法、基于因子分析模型的主轴因子法、极大似然法、最小二乘法、a因子提取法、映像分析法。主成分分析法能够为因子分析提供初始解，因子分析是主成分分析结果的延伸和拓展。

扩展资料：

在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是特征值大于1的因子进入分析），而指定的因子数量不同而结果不同。在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。

和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。大致说来，当需要寻找潜在的因子，并对这些因子进行解释的时候，更加倾向于使用因子分析，并且借助旋转技术帮助更好解释。

而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这种情况也可以使用因子得分做到。所以这种区分不是绝对的。

-因子分析法

一、方式不同：

1、主成分分析：

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

2、因子分析：

通过从变量群中提取共性因子，因子分析可在许多变量中找出隐藏的具有代表性的因子。

3、对应分析：

通过分析由定性变量构成的交互汇总表来揭示变量。

二、作用体现不同：

1、主成分分析：

主成分分析作为基础的数学分析方法，其实际应用十分广泛，比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用。

2、因子分析：

因子分析在市场调研中有着广泛的应用，主要包括消费者习惯和态度研究、品牌形象和特性研究、服务质量调查、个性测试。

3、对应分析：

能把众多的样品和众多的变量同时作到同一张图解上，将样品的大类及其属性在图上直观而又明了地表示出来，具有直观性。另外，它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程，可以从因子载荷图上对样品进行直观的分类，是一种直观、简单、方便的多元统计方法。

扩展资料

主成分分析对于原先提出的所有变量，将重复的变量（关系紧密的变量）删去多余，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

对应分析是由法国人Benzenci于1970年提出的，起初在法国和日本最为流行，然后引入到美国。对应分析法是在R型和Q型因子分析的基础上发展起来的一种多元统计分析方法，因此对应分析又称为R－Q型因子分析。

在因子分析中，如果研究的对象是样品，则需采用Q型因子分析；如果研究的对象是变量，则需采用R型因子分析。但是，这两种分析方法往往是相互对立的，必须分别对样品和变量进行处理。

欢迎分享，转载请注明来源：品搜搜测评网

原文地址:https://pinsoso.cn/meirong/2023685.html

主成分分析（PCA）

随机推荐

妮维雅什么产品好

后的套盒哪个系列的最好？有什么区别吗？

尼兰西私护真的好用吗

男士护肤套装哪款好

精华露和精华液的顺序

妮维雅630一瓶可以用多久

天气太套盒里面那个棍儿是干嘛用的

发表评论