当有很多组数据都要求提取同样数量的主成分时(比如说2个),尽管这两个主成分方差的贡献度没有达到85%或是预设的值,为了研究的可比性,我们可以仍然选取这2个作为主成分,这样的做法是比较普遍的,特别是数据有好多组的时候。我估计你后面还要做主成分回归分析吧,我一般都是这么做的,而且好多文献上我看到也是这么做的吧!
统计研究
主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,其目的是起到降维的效果,以便于用几个较少的综合指标来综合所研究总体各方面的信息,且这几个指标所代表的信息不重叠,也就是说从高维空间到低维空间的映射仍保持高维空间的“序”的结构。但这两种综合评价方法往往易混淆,本文从这两种方法的统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同,以供初学者参考。
1、统计依据不同。主成分分析方法的统计问题:依P个指标戈l,x2,A,戈P的/7,个观察值矩阵X=G0帅(已作标准化处理),能否找到能较好地综合反映这个P
.二
指标的线性函数Y=乞atxt,即
i=1
找到这个主成分的方法就是主成分分析方法。
因子分析方法的统计问题仍
口由P个指标戈。,戈:,A,却的几个观钱道察信息阵X=GF)忡,用有限个不翠
可观测的潜在变量来解释原始变量间的相关性或协方差关系,寻求这几个公因子的方法就是因子缉含汗价士气分析劣珐乡图分奸劣珐的火仪
分析法。它的原理源于已知信息的指标向量戈=0。,戈:,A,菇P)’,总存在正交变换戈=Qy使得记x=Az,这里正交阵Q是X=G0。巾的
协方差阵y的特征向量排成的,y的各分量是不相关的,若茹的方差集中在少数几个变量三,,A,缸上,即y的特征值A,,A,A。较大,后几个特征值A九,A,A。很小几乎为零,于是就有因子模型算=4厂+s。寻求公因子.厂及因子载荷阵A的方法就是因子分析法。
,
2、数学模型不同。主成分分析的数学模型:Y=Eat..ri,
1=1
即主成分是原始指标的线性函数。因子分析的数学模型(称因子模型):戈=4厂+£,A为因子载荷阵。厂为公因子向量,£为随机误差项,Vnroq=I。,Var(厂+8)=o,Var
I30圈羹堑绻过丝Q丝生皇塑万
方数据(8)=D。从形式上看二者的模型不同,但主成分分析又为因子分析中因子的寻求提供了一个有效的途径。主成分分析与因子分析法最易混淆的地方在于,将主成分分析方法与因子分析方法中估计公因子及因子载荷阵的主分量(主因子)法混为一谈。求解因子模型的方法有多种,也就是说因子模型的解不惟一,主分量(主因子)法仅仅是其中的一种参数估计方法。
3、计算方法不同。因子分析的主分量法:为估计
模型石气伊£的A及.厂'设样本协方差阵y的特征值为
A1>--A:≥A≥A,≥0,相应的特征向量为e,,e2,A,e,,若前
o.
个特征值的和与总方差上4的比大于,则
loI
VzAgle:+人+丸已。em7+D
f√五彳1f《
1
=(√丑q,A,√厶%1MI+I
O
I√九L.I
I盯;J
=AA’+D
因子载荷阵A2(√丑巳,人,√丸%),砰=%一∑彳,(汪l,2.A,p),
t=l
由这种方法得到因子模型的一个解A及D就是因子模型的主分量解。因子载荷阵A中的第J列的元素与
D
主成分分析中第,个主成分乃=∑唧^的系数啕仅相差
r-
Id
√^倍,因子分析的主分量解也是因此而得名。因子
载荷阵A,舻(60的第i行元素的意义:由模型x=价E
及V=AA
7+D看出,Var(xi)=b21怕刍+A,坛+研,即
b;反映了因子.五载荷了施的方差的量。故我们在求
解因子模型时,可将因子作旋转,使因子载荷阵中每一行的值尽可能两极化(接近于0或接近与±1),使其因子更具实际意义,这样就有了因子旋转的方法求解因
子模型。石=Ap8=APl盼8,令g=可,B=APl,则髫=
则为斜交变换。曰为因子模型的又一解。
4、综合评价的指标不同。因子得分是公因子的估归分析中的参数估计,因为公因子是潜在因素,事先无法度量和观察的。有了因子得分,它们的加权组合就得到综合评价指标E。即.f个因子的得分为向量
《旁
丑.
,∑一
羔A。。
(下转第32页)
盼£,若P为正交阵,则上述变换g=可为正交变换,否
计值。可用最小二乘回归的方法估计,但它又不同于回
统计研究
出相应的研究结果。
“旧房(二手房)房价收入比”是指某一整体内上市旧房(--手房)上市交易的平均价格与居民家庭户均收入的比例,这一指标与新房房价收入比对照,可用于评估该整体内的旧房折旧程度,也可以比较居民家庭对新旧住房的需求情况,从而得出研究结果。
在计算新房房价收入比与旧房房价收入比基础上,再按上市住房总蜃中新房所占的比例和旧房所占的比例作为新房房价收入比和旧房房价收入比的权重,加权计算整体房价收入比,公式为:房价收入比=∑新(IEt)房房价收入比×新(i11)房占上市住房的比例。三、按照居民是否拥有自有住房细分计算房价收入比
目前,我国大多数城市居民家庭拥有自有住房。他们如要进入市场,绝大多数是卖掉原有住房,再去买大些好些的住房,以改善居住条件。对于拥有住房的家庭户,购买新建商品房,其住房消费承受能力不能按新建商品房销售价格与家庭收入的比较来衡量。因为这部分居民可以通过销售自有住房所得来支付购买新建商品房房款÷’,也可以出租自有住房所得来支付银行按揭购房的按揭款。如果考虑这一因素,对这一部分居民家庭购房的房价收入比可以按以下公式计算:有房户房价收入比=(新建商品房平均销售价格一自有住房平均销售价格)÷拥有自有住房居民家庭户均收入。
计算公式的这一改变对房价收入比的计算方法起到了补充和扩展作用,因为它考虑了我国经济发展水平和多数居民拥有自有住房的特点,能够较好的衡量城市居民购买住房的实际承受能力。这一公式计算结果会降低某一区域的房价收入比指标值,在政策与舆论导向上会提高居民购房的心理承受能力。实际上,我国大多数城市房地产业发展很快,房价涨幅较高,主要因素是居民的住房消费需求大于住房供给的结果。城市中,除了最低收入者外,大多数拥有住房的家庭,都具有一定的购买更大更好住房的能力或是具有置换住房的能力。(上接第30页)
上
对于没有住房的居民家庭,情况也不一样,大体可以分为三类:第一类是自身有较高收入或可以得到家庭支持的无房户(这类无房户所占比重较小),实际上有较高的购房能力;第二类是中等收入者无房户,其中年轻人占的比重最大,政府应鼓励他们购房,用人单位给予一定的补贴;第三类是低收人者无房户,应通过政府的廉租屋政策来解决居住问题,不参加买方行列,使他们能享受政府福利,享受改革开放的成果。对第一类与第二类无房户,房价收入比可以按市场平均房价与它们的平均收入之比计算。
在分别计算有房户与无房户的房价收入比基础上,同样也可以用有房户和无房户占总家庭户数的比例作为它们各自房价收入比的权重,计算某地区的综合房价收入比,公式为:房价收入比=∑有(无)房户的房价收入比×有(无)房户家庭户数占总家庭房数的比例。
总之,为了正确的衡量广大居民住房消费的能力,制定科学合理的政策,引导房地产市场的健康发展,需要不断的深化研究房价收入比的计算方法。前面介绍的房价收入比指标从不同的角度反映居民住房消费承受能力,而且每种角度计算都会使得整体的房价收入比指标值比现行计算的房价收入比指标值要小,也就是说,考虑到各收入阶层的不同、新旧住房的区别、是否存在自有住房这几方面因素之后,让我们再用所得到的房价收人比来评价整体居民的住房消费承受能力,就会对部分专家认为的“现在我国已经出现了住房泡沫危机”有一个更清晰的认识。
分析发达国家经济发展历史,对照我国房地产业发展过程,我国的房地产业总体上还是处在起步阶段。当然在房地产业发展过程中,特别是在起步阶段,市场还不够成熟,市场规则制定与完善以及居民住房消费理性预期的养成,都需要有一个过程,因而,在现阶段,部分地方房价涨幅比较高,也是正常的。笔者觉得,就整体而言,我国现行的房地产业并没有出现很大的泡沫,但可能少数城市,由于人为炒作等原因,可能会存在结构性的供求失衡,存在一定的房地产泡沫。
(作者单位:东北财经大学统计系・邮编:116025)综上所述,主成分分析与因子分析都是综合评价的有效方法,它们有区别,也有联系,第_『个因子上的载荷是该总体第J个主成分的系数的A,倍。用因子分析作综合评价不仅可以给出排名顺序,还可以进一步探索影响排名次序的因素,从而找到进一步努力的方向,这就是因子分析所具有的独到的优越性。
(作者单位:浙江工商大学统计与计算科学学院)
{;;;;i!{j|;;;;;j;;;i;Ejj;;;;;;;i;jj;i;;i;ij;;;;;i;;;;!;;i;i;;!;;;i;÷;;;iii;;;;!i;i;;;;;;j;;;;;!;;;i;;;E;ij;;;;;;;;;;i;;;;i;;;;;ji;!;;;;;;;ii;;;;
而主成分分析一般按第一主成分的得分Y-=艺口rXi的
i=1
值排序,若第一主成分作为综合指标损失较多的信息,
可继续选取第二主成分y2,A,ym等,然后计算其综合得
矗
分二wjyj再利用综合得分指标排序。
万方数据
综合评价主成分分析方法与因子分析方法的比较
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
钱道翠
浙江工商大学统计与计算科学学院浙江统计
ZHEJIANG STATISTICS2004(9)5次
引证文献(5条)
1高磊 基于主成分分析方法的体育健身消费行为影响因素研究[期刊论文]-市场论坛 2009(1)
2田开郑宗培虞小海 主成分分析法在学生成绩分析中的应用[期刊论文]-大众商务(下半月) 2009(12)3FEI Nina刘新平 入境游客对我国旅游接待设施评价的因子分析[期刊论文]-西安石油大学学报(社会科学版)2008(3)
4应敏 多元统计分析在考试成绩分析中的应用[期刊论文]-中国科技信息 2006(4)5石丽君 国际科技活动效率评价方法研究[学位论文]硕士 2005
本文链接:comcn/Periodical_zjtj200409013aspx
主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。
二、基本思想的异同
(一) 共同点
主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 , ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。
聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。
(二) 不同之处
主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m < p) 个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。
因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异,主成分分析能解释所有变异。
聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数
欢迎分享,转载请注明来源:品搜搜测评网