SPSS(十一)信息浓缩技术--主成分分析、因子分析(图文+数据集)
当我们的自变量存在多重共线性,表现为进行回归时候方程系数估计不正常以及方程检验结果不正常,也许我们可以使用变量挑选的办法(手动挑选、向前法、向后法、逐步法),但是再复杂一点其实就不行了,之前我们介绍过岭回归解决该问题,其实我们还可以使用信息浓缩的技术来解决自变量存在多重共线性问题。
本讲课程中涉及的方法其实质均为数据化简、信息浓缩,即将分散在多个变量中的同类信息集中、提纯,从而便于分析、解释和利用。目的为浓缩信息(主成分分析)、目的为探讨内在结构(因子分析),正因如此,这些信息浓缩方法、特别是其中的因子分析方法,往往成为更复杂的多元分析方法的基石
主成分分析和因子分析都是对连续型的自变量进行信息浓缩,后面会讲解对分类自变量进行信息浓缩的方法--对应分析
主成分分析:解决变量间多重共线性(data reduction)
有太多的变量,希望能够消减变量,用一个新的、更小的由原始变量集组合成的新变量集作进一步分析
新变量集能够更有利于简化和解释问题
因子分析:探讨变量内在联系和结构(structure detection)
观测变量之间的存在相互依赖关系
主成分分析
只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多重共线性而无法得出正确结论
主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标(这些指标不一定会有准确的含义),便于进一步分析,尽可能保留原始变量的信息,且彼此不相关
在主成分分析中,提取出的每个主成分都是原来多个指标的线性组合
如有两个原始变量x1和x2,则一共可提取出两个主成分如下:
z1=b11x1+b21x2
z2=b12x1+b22x2
比如上面这张图,两个自变量存在共线性,我们提取两个主成分
原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前2~3个主成分已包含了90%以上的信息,其他的可以忽略不计。
在进行主成分回归时,提取出的主成分能包含主要信息即可,不一定非要有准确的实际含义。
用途:
主成分评价:当进行多指标的综合评价时,应用主成分方法将多指标中的信息集中为若干个主成分,然后加权求和,得到综合评价指数。(比如高校的综合排名,收集了一系列与排名有关的自变量,之后提取两至三个主成分,加权求和给出排名)
主成分回归:通过对存在共线性的自变量进行主成分分析,从而在提取多数信息的同时解决共线性问题
一、基本思想的异同
共同点
从二者表达的含义上看,主成分分析法和因子分析法都寻求少数的几个变量(或因子)来综合反映全部变量(或因子)的大部分信息,变量虽然较原始变量少,但所包含的信息量却占原始信息量的 85%以上,用这些新变量来分析问题,其可信程度仍然很高,而且这些新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。
不同点
在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,……,x3,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。
因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。
二、操作软件中的异同
主成分分析与因子分析都可利用 SPSS 软件中的 FACTOR 过程来实现,在此过程中应该注意以下几点:
1.指标的选定
指标最好具有同趋势化,一般为了评价分析的方便,需要将逆指标转化为正指标。
2假设条件
主成分分析:不需要有假设(assumptions)
因子分析:需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。
3.因子变量个数的确定
在利用 FACTOR 实现主成分分析时,在确定公共因子个数时,一般直接选择与原变量数目相等的个数,这样可以避免由于采用默认形式后累积方差贡献率达不到 85%而造成的二次操作。
在利用FACTOR实现因子分析时,可以选择的选项较多,除了主成分分析法之外,还有未加权最小平方法、广义最小平方法、最大似然法、主轴因式分解法、Alpha式分解法、映像因式分解法。这七种方法中只有用主成分分析法求解因子载荷时可以选择与变量个数相等的因子变量个数,其它方法都必须因子变量个数小于原始变量个数。
4模型的生成
经过 FACTOR 过程都产生因子载荷阵,但主成分分析模型需要的不是因子载荷量而是特征向量,所以还需要将因子载荷量输入到数据的编辑窗口,利用“主成分相应特征根的平方根与特征向量乘积为因子载荷量”性质来计算特征向量,从而得到主成分的线性表达式。
主成分分析法和层次分析法异同
1基于相关性分析的指标筛选原理
两个指标之间的相关系数,反映了两个指标之间的相关性。相关系数越大,两个指标反映的信息相关性就越高。而为了使评价指标体系简洁有效,就需要避免指标反映信息重复。通过计算同一准则层中各个评价指标之间的相关系数,删除相关系数较大的指标,避免了评价指标所反映的信息重复。通过相关性分析,简化了指标体系,保证了指标体系的简洁有效。
2基于主成分分析的指标筛选原理
(1)因子载荷的原理
通过对剩余多个指标进行主成分分析,得到每个指标的因子载荷。因子载荷的绝对值小于等于1,而绝对值越是趋向于1,指标对评价结果越重要。
(2)基于主成分分析的指标筛选原理
因子载荷反映指标对评价结果的影响程度,因子载荷绝对值越大表示指标对评价结果越重要,越应该保留;反之,越应该删除。通过对相关性分析筛选后的指标进行主成分分析,得到每个指标的因子载荷,从而删除因子载荷小的指标,保证筛选出重要的指标。
3相关性分析和主成分分析相同点
一是,基于相关性分析的指标筛选和基于主成分分析的指标筛选,均是在准则层内进行指标的筛选处理,准则层之间不进行筛选。这种做法的原因是,通过人为地划分不同准则层,反映评价事物不同层面的状况,避免误删反应信息不同的重要指标。
二是,基于相关性分析的指标筛选和基于主成分分析的指标筛选的思路,均是筛选出少量具有代表性的指标。
4相关性分析和主成分分析不同点
一是,两次筛选的目的不同:基于相关性分析的指标筛选的目的是删除反应信息冗余的评价指标。基于主成分分析的指标筛选的目的是删除对评价结果影响较小的评价指标。
二是,两次筛选的作用不同:基于相关性分析的指标筛选的作用是保证蹄选出的评价指标体系简洁明快。基于主成分分析的指标简选的目的是筛选出重要的指标。
很明显是把这4个指标拟合成一个主成分了,因为只有一个成分,所有指标采用了加和的方法,因此相关矩阵是1
主要的原因还是楼上说的,数据太少了,根本无法区分出是否来自不同的总体。
任何一种地质现象或观测结果,都是许多地质因素综合作用的结果,这个结果反映了各种地质因素间的内在联系。从这个客观事实出发,有些问题只有研究综合变量才能取得满意的效果。在天然放射性γ能谱测量中,依据铀、钍、钾三个放射性元素的含量形成的组合因子来解释放射性异常、区分某些土壤及岩石的类型比用单个放射性元素更合理、更准确。这是由于在同一事物中,许多单个因素间的关联性和复杂性(分别用它们之间的相关程度和变化性来体现)寓于一个统一体中,而且起主导作用的综合因素更能表述各单因素所揭示的事物的本质。所以抓住了这些主要的综合因素(即主因子),对事物进行分类,研究找矿规律,预测盲矿体,研究矿床成因等就简单容易了。据此,引出了因子分析。
因子分析是把多个变量通过线性组合转化成少数不相关变量(即综合变量)的一种多元统计分析办法。它分为R型和Q型两种类型。R型因子分析研究变量之间的相关关系,通过研究变量间的相关矩阵的内部结构,找出控制所有变量的几个主要成分。所以,R型因子分析又称为主成分分析。Q型因子分析研究样品(此时样品称为因子)之间的相似关系,通过研究样品间相似系数矩阵的内部结构,找出控制所有样品的几个主要因子,所以Q型因子分析又称为主因子分析。这两种因子分析的运算过程一样,只是出发点不同,用途也不同。
放射性勘探中主要使用主成分分析对γ能谱数据进行分析和解释,故在这里所讨论的因子分析为主成分分析。
主成分分析实际是一种降维方法,为了某个目的,常常需要将观测变量用一个或几个主要的组合变量取代多种观测变量,应用主成分分析就可实现这一要求。
(一)主成分分析的原理
对于多元变量来说,设有x1,x2,…,xp个原始变量,为了获得m个(m≤p)组合变量(即综合变量)采用如下的线性组合方法,即
放射性勘探方法
并要求
1) =1,(i=1,2,…,m);
2)系数{aij}由下述原则确定:①线性组合Fi与Fj(i≠j;i,j=1,2,…,m)互不相关;②F1的方差在x1,x2,…,xp的一切线性组合中是最大的;在与F1不相关的x1,x2,…,xp的所有线性组合中F2的方差是最大的;在与F1,F2…,Fm-1都不相关的x1,x2,…,xp的所有线性组合中Fm的方差是最大的。
这样确定的组合变量F1,F2,…,Fm分别称为原始变量的第一、第二……,第m个主成分。其中F1在组合变量的总方差中占的比例最大。其余第二、第三等主要成分F2,F3,…,Fm的方差依次递减,即相应主成分的重要性也依次递减。在实际工作中,一般只挑选前几个主成分进行地质解释,这样不仅减少了变量个数,而且抓住了事物变化的主要原因,容易揭示问题的本质。
(二)主成分的导出
确定主成分问题就是找出p维空间中观测点所组成的椭球的主轴问题。在代数学上,主成分问题就是求观测变量的相关矩阵中m个较大特征值所对应的特征向量。
设样品X=[x1,x2,…,xp]是一个p维随机向量;且遵循正态分布X~N(μ,∑),其中,μ=[μ1,μ2,…,μp]',∑p×p=[∑ij]为一协方差矩阵。
寻找X的线性组合aX,使aX相应的方差尽可能大,这就是说,要寻找一个正交矩阵a,使aa'=I,且使方差
放射性勘探方法
为解决这个问题,设∑的特征值λ1≥λ2≥…λp≥0,又设对应于λi(i=1,2,…,p)的特征向量为Up×p=[u1,u2,…,up],且U是正交矩阵,即UU'=I(单位矩阵)。又由于∑为实对称矩阵,故有
放射性勘探方法
因此方差
放射性勘探方法
所以
放射性勘探方法
而且,当a=u1时,
放射性勘探方法
等式成立。因此,a=u1就能达到方差最大的要求。即
放射性勘探方法
同理 ,而且只有i≠j时,协方差
放射性勘探方法
这样找出的组合变量F1=u'1X,F2=u'2X,…,Fp=u'pX,可看成新的随机向量,且Fi(i=1,2,…,p)相互独立,var(Fi)=λi,而且服从均值向量为μF,协方差矩阵为Λ的多元正态分布
放射性勘探方法
式中:
放射性勘探方法
放射性勘探方法
上述分析表明,组合变量Fi的系数ai是协方差矩阵∑的特征值λi所对应的特征向量,而λi是组合变量Fi的方差。因此每一个组合变量的重要性就可以用相应的特征值λi来表示。一般用其占总方差的百分比描述:
放射性勘探方法
(三)γ能谱数据的主成分分析及应用
1γ能谱数据处理步骤
设测区的取样点数为n,变量个数为3,分别表示铀、钍、钾元素,第j变量在第i样品上的取值为xij。
1)计算各元素的均值 和方差sj。
2)求相关矩阵或协方差矩阵B=[bkl]m×n。
3)求主分量(亦即求解矩阵B):
设矩阵B的特征值为λ,特征向量为A,则
BA=λA 或 BA-λA=0
上式左乘单位矩
EBA-EλA=0
(BE-λE)·A=0
故
(B-λE)·A=0
上式成立的充要条件是系数行列式等于零
B-λE=0
此方程称为A的特征方程,解此方程可求出p个特征值λi(λ1≥λ2≥…≥λp)。
将λi代入BA-λA=0 式,可求得相应的特征向量,即主分量aji。
4)求主分量得分,主分量得分的数学公式为:fi= aji·xi(i=1,2,…,p)。
5)绘制各主分量得分等值线图。
2应用实例
[例1]柴达木盆地中部地区航空γ能谱数据的主分量分析实例。
1)计算各变量的均值和均方差,见下表6-9。
表6-9 柴达木盆地中部地区各变量均值和均方差
2)计算相关矩阵,结果为
放射性勘探方法
3)求矩阵特征值和求特征向量。矩阵A的特征方程为
放射性勘探方法
解此方程组即求得特征值λi(i=1,2,3)。将λi代入下式即可求得对应λi的特征向量ai(i=1,2,3)。计算结果见表6-10。
放射性勘探方法
表6-10 主分量、特征值及主分量与原始变量的相关关系(Z)
特征值(λ)=188 082 080
方差贡献(%)=63 27 10
4)计算测区各测点的主分量得分,并绘制主分量得分等值线图。
第一主分量得分,f1=062K+042U+066Th
第二主分量得分,f2=-040K+090U-019Th
第三主分量得分,f3=066K+014U-073Th
应用主分量分析方法处理航空伽马能谱测量数据,可用来进行岩性填图和成矿远景预测。对于青海柴达木盆地小部地区来说,第一主分量较好地反映出该区的地表岩性特征,主要指示了原始的沉积环境,而第二和第三主分量则主要反映了该区的湖相沉积作用,其中第二主分量集中代表了生铀环境,第三主分且集中代表了蒸发盐型钾盐的生成环境。
[例2]航空γ能谱测量在阿龙山地区浅覆盖区填图。
经计算得到三个主分量:
第一主分量为 f1=03311U-09436Th+07299K
第二主分量为 f2=-081139U+01486Th+05616K
第三主分量为 f3=05164U+06298Th+05802K
三主分量的方差贡献分别为:66%,202%,73%。由此见第三主分量的贡献最大。作了第三主分量得分等值图,它与K含量等值线图非常相似,高值对应高放射性区,中值对应中放射性区,低值对应低放射性区。所以主分量f3与地质体之间有一定的系,它的值的高低反映了不同填图单元。
分析物质成分方法:主成分分析是一种综合评价方法。它比较了样品的相对位置,比较了样品的优缺点,缺口和原因。方向不积极,没有正确的结论。因此,在分析中,必须转发指标体系中的强度逆指数和中等指数。
主成分分析的理论和计算较为成熟,但主成分分析的应用尚未达到解决实际问题的成熟状态。
根据总结,一些用户在应用主成分分析方法进行综合评价时有以下10个问题。
1、原始数据不正,有什么影响?如何转发?
2、原始变量是否意味着主成分的平方和不是1对?
3、主成分分析的主成分正交旋转后会发生什么?
4、回归计算是否需要主成分分析的主要成分?
5、主成分分析和正交因子分析吗?
6、何时进行主成分分析?
7、主成分分析有时会丢失一些原始变量的原因是什么?
8、如何命名主成分并维护原始变量和多个主成分之间的内在关系?
9、前m个主成分仍然是多因素,客观上只使用综合主成分进行综合分析?
10、综合评价结果,如何深入了解决策相关程度?
主成分分析服务范围
1、产品开发或改进:一般分析,比较分析,特殊需求分析。
2、质量控制:供应商评估,内部控制检查。
3、工业诊断:异物分析,失效分析,副产物分析。
4、了解成分:(溶剂,表面活性剂,树脂,主成分)定性和定量分析,名称
5、组分定量或验证,未知重复,无机定性定量,橡胶和塑料主成分表征等。
欢迎分享,转载请注明来源:品搜搜测评网