主成分分析是为了从众多变量中选择合并主要影响因素,并使得众多因素归入各自的主成分内,各个成分之间可以尽量的相互独立----所以要想图形展示或者便于说明,一般选择三个以内的主成分因子。并且是否入选也有经验上的明确数值----只有5组,你意思是只有五个变量,五个变量了还需要做主成分?
1主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在统计分析中也称为变量。因为每个变量都不同程度地反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
2科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息
(1)主成分个数远远少于原有变量的个数
原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。
(2)主成分能够反映原有变量的绝大部分信息
因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有 变量信息的大量丢失,并能够代表原有变量的绝大部分信息
(3)主成分之间应该互不相关
通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题
(4)主成分具有命名解释性
一、对原始数据进行标准化
二、计算相关系数矩阵
三、计算特征值与特征向量
四、计算主成分载荷
五、各主成分的得分
主成分分析有以下几方面的应用:
①对原始指标进行综合:主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。
②探索多个原始指标对个体特征的影响:对于多个原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。
③对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类,可能就会与分类预测算法结合。
我们也可以思考下,每一个数据处理算法都不是孤立存在的,而是相互补充。
主成分分析法原理如下:
主成分分析, 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
主成分分析首先是由K皮尔森(Karl Pearson)对非随机变量引入的,尔后H霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
在SPSS中进行主成分分析后,如果得到的主成分得分与您预期的不符,有几个原因:
1 您选择的变量不够合理。主成分分析是根据变量间的相关性来提取主成分的,如果变量间相关性不强, extracted的主成分就不能很好代表变量的信息。这时,您需要检查变量选择,删除不相关的变量。
2 您提取的主成分数目不够。如果只提取少数几个主成分,它们未必能代表大部分变量信息。这时,您可以增加主成分数目,直到主成分的特征值之和达到80%以上。
3 您的变量存在删除的共同信息。如果变量间相关性太高,主成分分析会把这部分共同信息提取到前几个主成分中,从而忽略了其他信息。这时,您需要考虑是否需要删除或者合并一些高度相关的变量。
4 您对主成分的解释和理解不正确。主成分分析提取的主成分是无序无差异的,并不一定按照变量的预期来排列。您需要根据主成分加载矩阵和主成分得分值来正确理解和解释每个主成分的意义。
解决方法:
1 检查变量选择和相关性,必要时剔除不相关变量;
2 增加主成分数目,比如超过80%的特征值累积贡献;
3 考虑删除或合并高度相关的变量;
4 根据主成分加载矩阵和得分值正确理解和解释主成分的意义;
5 如果结果仍不理想,可以尝试其它分析方法,如聚类分析、判别分析等。
先在spss中准备好要处理的数据,然后在菜单栏上执行:analyse--dimension reduction--factor analyse。打开因素分析对话框
2
我们看到下图就是因素分析的对话框,将要分析的变量都放入variables窗口中
3
点击descriptives按钮,进入次级对话框,这个对话框可以输出我们想要看到的描述统计量因为做主成分分析需要我们看一下各个变量之间的相关,对变量间的关系有一个了解,所以需要输出相关,勾选coefficience,点击continue,返回主对话框,回到主对话框,点击ok,开始输出数据处理结果,你看到的这第一个表格就是相关矩阵,现实的是各个变量之间的相关系数,通过相关系数,你可以看到各个变量之间的相关,进而了解各个变量之间的关系,第二个表格显示的主成分分析的过程,我们看到eigenvalues下面的total栏,他的意思就是特征根,他的意义是主成分影响力度的指标,一般以1为标准,如果特征根小于1,说明这个主因素的影响力度还不如一个基本的变量。所以我们只提取特征根大于1的主成分。如图所示,前三个主成分就是大于1的,所以我们只能说有三个主成分。另外,我们看到第一个主成分方差占所有主成分方差的469%,第二个占275%,第三个占150%。这三个累计达到了895%。
欢迎分享,转载请注明来源:品搜搜测评网