主成分分析的作用

主成分分析的作用,第1张

成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关通常数学上的处理就是将原来P个指标作 线性组合 ,作为新的综合指标。 最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的 方差 来表达,即Var (F1)越大,表示F1包含的信息越多。 因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。

主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。

主成分分析首先是由K皮尔森(Karl Pearson)对非随机变量引入的,尔后H霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

主成分分析(Principal Component Analysis,PCA), 是一种统计方法。

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。

主成分分析首先是由K皮尔森(Karl Pearson)对非随机变量引入的,尔后H霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫作主成分分析或称主分量分析,也是数学上用来降维的一种方法

    本文记录的目的是方便自己学习和复习,有误之处请谅解,欢迎指出。

    主成分分析(Principal Component Analysis,PCA)是中最常用的降维算法之一,也可以用于数据压缩、去除冗余信息、消除噪声等方面。PCA的目的是找出一组低维数据来代表原高维数据,且保留原始数据中的主要信息。例如有m个数据集,n维特征,我们希望将n维特征降低到d维,而且让损失的信息尽可能小,具体怎么做呢?

    首先通过PCA找出第1个新坐标使得原始数据中方差最大;然后找出第2个新坐标与第1个坐标正交平面使得方差最大;再找出第3个坐标与1,2坐标正交平面使得方差最大,以此类推,得到d个新维度特征。

    直接一点:就是求出样本集的协方差矩阵 的前d个特征值对应的特征向量,组成矩阵 ,然后对每个样本 进行变换 。

    1)特征去中心化,即每个维度特征减去其均值:

    2)计算协方差矩阵

    3) 对协方差矩阵进行特征值分解

    4)取前d个最大的特征值对应的特征向量组成矩阵 。

    5)对每个样本数据进行变换,

    6)得到降维后的数据

    假定现有10个二维数据集 (25,24), (05,07), (22,29), (19,22), (31,30), (23, 27), (2, 16), (1, 11), (15, 16), (11, 09) ,需要用PCA降到1维。

    首先样本去中心化,这里样本的均值为 (181, 191) ,所有的样本减去这个 均值 向量后,即中心化后的数据集为 (069, 049), (-131, -121), (039, 099), (009, 029), (129, 109), (049, 079), (019, -031), (-081, -081), (-031, -031), (-071, -101) 。

    求协方差矩阵:

    求出特征值为 (00490833989, 128402771) ,对应的特征向量分别为:

由于最大的k=1个特征值为128402771,对应的特征向量为 。这也就是特征矩阵 。

    对每个数据样本进转换 得到降维后的数据 (-0827970186, 177758033, -0992197494, -0274210416, -167580142, -0912949103, 00991094375, 114457216, 0438046137, 122382056)

spss的主成分分析主要应用在因子分析里,目的是将原来很多的因素,通过他们内在的相关分析,整合成新的一个或多个相对独立的综合因素,来代表原来散乱的因素。

例如我们测量客户满意度设计了10个题目,那数据收集完后,就可以通过因子分析,来看看这10个题目是否能综合成几个因素。通过spss的主成分分析,就可以得出相应结果。

结果可能是其中5个题目的相关显著,可以通过一个因素来归纳这5个因素,另外3个、 2个也可以分别组成一个,而且主成分对应的特征值大于1,这样就最后就可以通过3个综合因素来研究和分析客户满意度了。

主成分分析可以理解为一种数据的处理理论,也可以理解为一种应用方法。而因子分析则可以理解为一种应用方法,因为做因子分析采用的比较多的就是用主成分分析的方法来浓缩因子。

所以其实所谓的区别只不过是在学科研究当中存在的,因为同属于统计学的理论,所以一定要找出两者的区别来。但是如果你只是应用的话,那就没必要考虑两者有什么区别。

主成分分析PCA是将多指标重新组合成一组新的无相关的几个综合指标,是根据实际需要从中选取尽可能少的综合指标,以达到尽可能多地反应原指标信息的分析方法。由于这种方法的第一主成分在所有的原始变量中方差最大,因而综合评价函数的方差总不会超过第一主成分的方差,所以该方法有一定的缺陷,且提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),所以在变量较少时就不太适合先用主成分筛选变量,这个视数据情况而定

主成分分析实现步骤:

1、原始数据标准化,消除变量量纲不同的影响;

2、计算相关系数矩阵,计算特征值和对应的特征向量;

3、计算贡献率和累计贡献率。

疑问解答:

1计算特征值的含义?

   PCA的本质是对角化协方差矩阵,后对一个n x n的对称协方差矩阵分解求特征值和特征向量,就会产生n个n维正交基,每个正交基对应一个特征值,吧矩阵投影在这n个基上,此时的特征值的横就表示在该基上的投影长度,特征值越大,说明矩阵对应的特征向量上的方差越大,样本点越离散,越容易区分,包含的信息量越多

2主成分系数

  根据主成分系数判断主成分主要依赖的几个变量,根据主要依赖变量总结该主成分(综合指标)代表的性质

3主成分得分

  主成分得分其实就是降维之后数据,可对降维之后的主成分得分进行聚类分析,得到相似的类别群体

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1944131.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-10-29
下一篇2023-10-29

随机推荐

  • sk2精华露使用顺序

    第1个步骤就是先进行面部的清洁,清洁完了之后需要在脸上拍一点爽肤水,接着需进一步的修复,用旗下的补水保湿修复精华露来进行修复,那这款精华露当中所含有的pitera乃是神仙水的整整4倍,所以能达到强效保湿补水的效果,绝对是干皮的救星。在这个步

    2024-04-15
    66600
  • 斑马课程好不好 有哪些优势

    很多同学都听过斑马课程,那么斑马课程怎么样?我整理了一些相关信息,大家一起来看看吧。斑马课程家长评价 1、拿斑马AI课旗下斑马英语提供的AI互动多感官情景课堂来说 ,有角色代入、有情景、有剧情、有随堂测验,每天15分钟

    2024-04-15
    55200
  • 妮维雅630淡斑精华真假

    关于妮维雅630淡斑精华的真假问题,我可以告诉你,这取决于你购买的渠道和产品包装。如果你选择在正规渠道购买,比如官网、专柜或者认可的线上零售商,那么你购买到的产品应该是真品。如果你选择在一些不明来源的小店或者个人手中购买,那么就存在假货风险

    2024-04-15
    52800
  • 有没有好的防晒乳呢?

    1、Nivea妮维雅水感防晒啫喱SPF50这个妮维雅水感防晒是目前为止我用得最多的一款防晒,找代购买80人民币左右有140g的容量,所以大量抹在胳膊上腿上也不心疼。它挤出来是半水状半乳液状的质地,不像那种厚重的防晒,很水润,极度容易推开,抹

    2024-04-15
    41300
  • 请问下爽肤水、保湿霜、保湿凝露、保湿乳液、精华乳、精华素使用的顺序是怎样的?

    使用顺序(按照分子越小越先用的原则):爽肤水→精华素→保湿乳液→保湿凝露→保湿霜,质地越清爽、越稀越先用,这样更有利于各种营养的充分吸收。保湿霜作为最后一道护肤步骤,目的是要把水分都锁在脸上,这样肌肤才不会水分流失。精华凝露就是精华素,直接

    2024-04-15
    48700
  • 妮维雅630和玉兰油多效修护面霜哪个好

    妮维雅630。1、吸收性。妮维雅630适合任何肤质,且温和不刺激,日夜也都适用,玉兰油多效修护面霜吸收性不如妮维雅630。2、成分。玉兰油多效修护面霜美白效果太快太明显说明添加化学成分多,妮维雅630与之相比好些没那么多化学成分。妮维雅面霜

    2024-04-15
    51100
  • 哪一款男士洗面奶具备控油美白的功效?妮维雅、欧兰雅、还是曼秀蕾敦?如题 谢谢了

    近年来,男士护肤品市场迅速发展,男士洗面奶也成为了男性日常护肤的重要产品之一。对于控油美白效果的男士洗面奶,妮维雅、欧兰雅和曼秀蕾敦都是备受瞩目的品牌。哪一款男士洗面奶具备控油美白的功效呢?让我们来看看妮维雅男士洗面奶。妮维雅一直以来都是大

    2024-04-15
    45700

发表评论

登录后才能评论
保存