SAS中的主成分分析和因子分析有什么区别

SAS中的主成分分析和因子分析有什么区别,第1张

成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。

因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。

聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。

三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。

二、基本思想的异同

(一) 共同点

主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 , ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。

聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。

(二) 不同之处

主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m < p) 个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。

因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异,主成分分析能解释所有变异。

聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数

主成分分析至少得1个样本。主成分分析要求数据接近正态分布,不一定要严格的正态分布条件,一般来说样本量在1以上就基本符合条件。主成分分析是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

主成分分析是为了从众多变量中选择合并主要影响因素,并使得众多因素归入各自的主成分内,各个成分之间可以尽量的相互独立----所以要想图形展示或者便于说明,一般选择三个以内的主成分因子。并且是否入选也有经验上的明确数值----只有5组,你意思是只有五个变量,五个变量了还需要做主成分?

SPSS(十一)信息浓缩技术--主成分分析、因子分析(图文+数据集)

当我们的自变量存在多重共线性,表现为进行回归时候方程系数估计不正常以及方程检验结果不正常,也许我们可以使用变量挑选的办法(手动挑选、向前法、向后法、逐步法),但是再复杂一点其实就不行了,之前我们介绍过岭回归解决该问题,其实我们还可以使用信息浓缩的技术来解决自变量存在多重共线性问题。

本讲课程中涉及的方法其实质均为数据化简、信息浓缩,即将分散在多个变量中的同类信息集中、提纯,从而便于分析、解释和利用。目的为浓缩信息(主成分分析)、目的为探讨内在结构(因子分析),正因如此,这些信息浓缩方法、特别是其中的因子分析方法,往往成为更复杂的多元分析方法的基石

主成分分析和因子分析都是对连续型的自变量进行信息浓缩,后面会讲解对分类自变量进行信息浓缩的方法--对应分析

主成分分析:解决变量间多重共线性(data reduction)

有太多的变量,希望能够消减变量,用一个新的、更小的由原始变量集组合成的新变量集作进一步分析

新变量集能够更有利于简化和解释问题

因子分析:探讨变量内在联系和结构(structure detection)

观测变量之间的存在相互依赖关系

主成分分析

只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多重共线性而无法得出正确结论

主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标(这些指标不一定会有准确的含义),便于进一步分析,尽可能保留原始变量的信息,且彼此不相关

在主成分分析中,提取出的每个主成分都是原来多个指标的线性组合

如有两个原始变量x1和x2,则一共可提取出两个主成分如下:

z1=b11x1+b21x2

z2=b12x1+b22x2

比如上面这张图,两个自变量存在共线性,我们提取两个主成分

原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前2~3个主成分已包含了90%以上的信息,其他的可以忽略不计。

在进行主成分回归时,提取出的主成分能包含主要信息即可,不一定非要有准确的实际含义。

用途:

主成分评价:当进行多指标的综合评价时,应用主成分方法将多指标中的信息集中为若干个主成分,然后加权求和,得到综合评价指数。(比如高校的综合排名,收集了一系列与排名有关的自变量,之后提取两至三个主成分,加权求和给出排名)

主成分回归:通过对存在共线性的自变量进行主成分分析,从而在提取多数信息的同时解决共线性问题

主成分分析与因子分析的区别

1 目的不同: 因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。

2 线性表示方向不同: 因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。

3 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

4 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。

5 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。

6 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。

7 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。

1 、聚类分析

基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

注意事项:1 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;

2 K-均值法要求分析人员事先知道样品分为多少类;

3 对变量的多元正态性,方差齐性等要求较高。

应用领域:细分市场,消费行为划分,设计抽样方案等

2、判别分析

基本原理:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。

常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。

注意事项:1 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;

2 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);

3 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。

相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。

应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。

3、 主成分分析/ 因子分析

主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。

因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)

求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。

(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)

求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。

注意事项:1 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;

2 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;

3主成分分析不要求数据来源于正态分布;

4 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。

5 因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。

4、对应分析/最优尺度分析

基本原理:利用降维的思想以达到简化数据结构的目的,同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。

对应分析:用于展示变量(两个/多个分类)间的关系(变量的分类数较多时较佳);

最优尺度分析:可同时分析多个变量间的关系,变量的类型可以是无序多分类,有序多分类或连续性变量,并 对多选题的分析提供了支持。

5、典型相关分析

基本原理:借用主成分分析降维的思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关。

0你这个问卷设计得有问题,我用你的数据做了个问卷的项目分析:分别是题总相关、题项区分度。两项分析得出的结果都不是很理想。

1在题项总相关那里,只有域名规范、响应速度是显著的,即是跟你的问卷目的相关。

2而在体相区分度那里,只得出定制服务、域名规范、隐私说明、响应速度、语言版本这5项的数据。

首先说明了只有这5项数据符合spss的检验要求。因为从你你的统计数据也可以看出,1、2、5、6、10(对应信息检索、网站地图、域名规范、版权说明、ICP备案)五项都是相同的数据,说明没有区分度,不存在统计意义!!

而在制服务、域名规范、隐私说明、响应速度、语言版本这5项里,得出的区分度分析都不显著,均没有鉴别度,不能鉴别出不同问卷回答者的反应程度。

3结论:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。以上的结果表明,是在是提不出至少两个相互无关的指标(主因子)来分组,因为你的题项没有区分度,相关性很强。

素以你的问卷设计有问题,需要从新设计题项或者答案!!所以不能进行主成份分析。

希望能帮到你!!

好辛苦啊,给分吧~~~~~!!我没金币了··T

T

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/2034732.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-11-04
下一篇2023-11-04

随机推荐

  • 自然堂凝时鲜颜系列用法顺序

    自然堂凝时鲜颜系列的使用顺序是:1 首先需要进行脸部的清洁,使用温水打湿面部,然后取适量的洗颜霜在手中,用手搓揉出丰富的泡沫。将泡沫放置于面部,特别是容易出油的T字部位,千万不要在面部直接揉搓,而是要让泡沫在肌肤上进行按摩。在整个面部画圈来

    2024-04-15
    48000
  • 欧珀莱黑精灵精华怎么样?欧珀莱黑精灵精华使用方法

    欧珀莱黑精灵精华主打密实肌底,光润透亮,那么欧珀莱黑精灵精华怎么样?欧珀莱黑精灵精华使用方法是什么?面对这些问题,以下是针对欧珀莱黑精灵精华进行的全面分析,以了解欧珀莱黑精灵精华的其他性能,并帮助你解决更多的问题,有兴趣的朋友快来看看!

    2024-04-15
    46900
  • 有没有人听说过艾纳菲这个牌子的护肤品呢?套装的价格方面是多少钱呢?效果好么?对比起兰蔻产品那个好用

    你能买到艾纳菲品牌化妆品的地方,那里的服务人员就会告诉你药监局备案码告诉你怎么查,正规厂家产品至于价格方面,每个区域都不同对比兰蔻,没有可比性,兰蔻基础保养艾纳菲专业线,更有针对性,美白效果很好安全。艾纳菲护肤品是正规厂家的产品,定位比较高

    2024-04-15
    42100
  • 精油批发市场是真精油吗

    是。没有说精油的真伪之说,市场上卖的精油,主要区别的是精油的纯度,目前市场上出售的,要么说是所谓纯高度进口精油,要么说是原装进口,其实很多外国品牌进到中国市场,80%是进了纯精油到国内稀释后贴包装出售。帮你找了厦门做香料的一大堆公司的资料—

    2024-04-15
    25200
  • 妮维雅官方旗舰店跟妮维雅男士官方旗舰店的区别

    妮维雅官方旗舰店跟妮维雅男士官方旗舰店的区别?你好,楼主,妮维雅官方旗舰店跟妮维雅男士官方旗舰店的区别:妮维雅官方旗舰店包括旗下所有产品都有卖,而妮维雅男士官方旗舰店只卖男士相关的东西,希望我的答案能帮到你。不知道大家有没有听说过像妮维

    2024-04-15
    34500
  • 全世界最好用的护手霜推荐 平价好用护手霜分享

    平价好用的护手霜在市面上很常见,品牌也是五花八门,相信很多集美都不知道该怎么挑选,作为一名多年的护肤达人,接下来我就分享给大家5款常用实惠好用的护手霜,快快收藏起来吧!凡士林护手霜参考价格:169元50ml凡士林护手霜的主要成分就是凡士林

    2024-04-15
    33800
  • 美容店一个套盒的利润

    美容店一个套盒的利润大约在70%左右,这是根据相关专业人士透露得出的结论。当然,具体利润还会受到多种因素的影响,例如套盒的成本、销售价格、市场需求等等。一般来说,美容店会根据市场需求和自身定位,选择合适的套盒产品,并制定合理的销售价格。在销

    2024-04-15
    26100

发表评论

登录后才能评论
保存