主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关通常数学上的处理就是将原来P个指标作 线性组合 ,作为新的综合指标。 最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的 方差 来表达,即Var (F1)越大,表示F1包含的信息越多。 因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
主成分分析首先是由K皮尔森(Karl Pearson)对非随机变量引入的,尔后H霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
主成分分析(Principal Component Analysis,PCA), 是一种统计方法。
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
主成分分析首先是由K皮尔森(Karl Pearson)对非随机变量引入的,尔后H霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫作主成分分析或称主分量分析,也是数学上用来降维的一种方法
本文记录的目的是方便自己学习和复习,有误之处请谅解,欢迎指出。
主成分分析(Principal Component Analysis,PCA)是中最常用的降维算法之一,也可以用于数据压缩、去除冗余信息、消除噪声等方面。PCA的目的是找出一组低维数据来代表原高维数据,且保留原始数据中的主要信息。例如有m个数据集,n维特征,我们希望将n维特征降低到d维,而且让损失的信息尽可能小,具体怎么做呢?
首先通过PCA找出第1个新坐标使得原始数据中方差最大;然后找出第2个新坐标与第1个坐标正交平面使得方差最大;再找出第3个坐标与1,2坐标正交平面使得方差最大,以此类推,得到d个新维度特征。
直接一点:就是求出样本集的协方差矩阵 的前d个特征值对应的特征向量,组成矩阵 ,然后对每个样本 进行变换 。
1)特征去中心化,即每个维度特征减去其均值:
2)计算协方差矩阵
3) 对协方差矩阵进行特征值分解
4)取前d个最大的特征值对应的特征向量组成矩阵 。
5)对每个样本数据进行变换,
6)得到降维后的数据
假定现有10个二维数据集 (25,24), (05,07), (22,29), (19,22), (31,30), (23, 27), (2, 16), (1, 11), (15, 16), (11, 09) ,需要用PCA降到1维。
首先样本去中心化,这里样本的均值为 (181, 191) ,所有的样本减去这个 均值 向量后,即中心化后的数据集为 (069, 049), (-131, -121), (039, 099), (009, 029), (129, 109), (049, 079), (019, -031), (-081, -081), (-031, -031), (-071, -101) 。
求协方差矩阵:
求出特征值为 (00490833989, 128402771) ,对应的特征向量分别为:
由于最大的k=1个特征值为128402771,对应的特征向量为 。这也就是特征矩阵 。
对每个数据样本进转换 得到降维后的数据 (-0827970186, 177758033, -0992197494, -0274210416, -167580142, -0912949103, 00991094375, 114457216, 0438046137, 122382056)
spss的主成分分析主要应用在因子分析里,目的是将原来很多的因素,通过他们内在的相关分析,整合成新的一个或多个相对独立的综合因素,来代表原来散乱的因素。
例如我们测量客户满意度设计了10个题目,那数据收集完后,就可以通过因子分析,来看看这10个题目是否能综合成几个因素。通过spss的主成分分析,就可以得出相应结果。
结果可能是其中5个题目的相关显著,可以通过一个因素来归纳这5个因素,另外3个、 2个也可以分别组成一个,而且主成分对应的特征值大于1,这样就最后就可以通过3个综合因素来研究和分析客户满意度了。
主成分分析可以理解为一种数据的处理理论,也可以理解为一种应用方法。而因子分析则可以理解为一种应用方法,因为做因子分析采用的比较多的就是用主成分分析的方法来浓缩因子。
所以其实所谓的区别只不过是在学科研究当中存在的,因为同属于统计学的理论,所以一定要找出两者的区别来。但是如果你只是应用的话,那就没必要考虑两者有什么区别。
主成分分析PCA是将多指标重新组合成一组新的无相关的几个综合指标,是根据实际需要从中选取尽可能少的综合指标,以达到尽可能多地反应原指标信息的分析方法。由于这种方法的第一主成分在所有的原始变量中方差最大,因而综合评价函数的方差总不会超过第一主成分的方差,所以该方法有一定的缺陷,且提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),所以在变量较少时就不太适合先用主成分筛选变量,这个视数据情况而定
主成分分析实现步骤:
1、原始数据标准化,消除变量量纲不同的影响;
2、计算相关系数矩阵,计算特征值和对应的特征向量;
3、计算贡献率和累计贡献率。
疑问解答:
1计算特征值的含义?
PCA的本质是对角化协方差矩阵,后对一个n x n的对称协方差矩阵分解求特征值和特征向量,就会产生n个n维正交基,每个正交基对应一个特征值,吧矩阵投影在这n个基上,此时的特征值的横就表示在该基上的投影长度,特征值越大,说明矩阵对应的特征向量上的方差越大,样本点越离散,越容易区分,包含的信息量越多
2主成分系数
根据主成分系数判断主成分主要依赖的几个变量,根据主要依赖变量总结该主成分(综合指标)代表的性质
3主成分得分
主成分得分其实就是降维之后数据,可对降维之后的主成分得分进行聚类分析,得到相似的类别群体
欢迎分享,转载请注明来源:品搜搜测评网