程序如下:
>a=readcsv("shanghai2010csv",header=T)
> attach(a)
> a[,3:8] #提取a中第3-8列
> PCA=pri
统计研究
主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,其目的是起到降维的效果,以便于用几个较少的综合指标来综合所研究总体各方面的信息,且这几个指标所代表的信息不重叠,也就是说从高维空间到低维空间的映射仍保持高维空间的“序”的结构。但这两种综合评价方法往往易混淆,本文从这两种方法的统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同,以供初学者参考。
1、统计依据不同。主成分分析方法的统计问题:依P个指标戈l,x2,A,戈P的/7,个观察值矩阵X=G0帅(已作标准化处理),能否找到能较好地综合反映这个P
.二
指标的线性函数Y=乞atxt,即
i=1
找到这个主成分的方法就是主成分分析方法。
因子分析方法的统计问题仍
口由P个指标戈。,戈:,A,却的几个观钱道察信息阵X=GF)忡,用有限个不翠
可观测的潜在变量来解释原始变量间的相关性或协方差关系,寻求这几个公因子的方法就是因子缉含汗价士气分析劣珐乡图分奸劣珐的火仪
分析法。它的原理源于已知信息的指标向量戈=0。,戈:,A,菇P)’,总存在正交变换戈=Qy使得记x=Az,这里正交阵Q是X=G0。巾的
协方差阵y的特征向量排成的,y的各分量是不相关的,若茹的方差集中在少数几个变量三,,A,缸上,即y的特征值A,,A,A。较大,后几个特征值A九,A,A。很小几乎为零,于是就有因子模型算=4厂+s。寻求公因子.厂及因子载荷阵A的方法就是因子分析法。
,
2、数学模型不同。主成分分析的数学模型:Y=Eat..ri,
1=1
即主成分是原始指标的线性函数。因子分析的数学模型(称因子模型):戈=4厂+£,A为因子载荷阵。厂为公因子向量,£为随机误差项,Vnroq=I。,Var(厂+8)=o,Var
I30圈羹堑绻过丝Q丝生皇塑万
方数据(8)=D。从形式上看二者的模型不同,但主成分分析又为因子分析中因子的寻求提供了一个有效的途径。主成分分析与因子分析法最易混淆的地方在于,将主成分分析方法与因子分析方法中估计公因子及因子载荷阵的主分量(主因子)法混为一谈。求解因子模型的方法有多种,也就是说因子模型的解不惟一,主分量(主因子)法仅仅是其中的一种参数估计方法。
3、计算方法不同。因子分析的主分量法:为估计
模型石气伊£的A及.厂'设样本协方差阵y的特征值为
A1>--A:≥A≥A,≥0,相应的特征向量为e,,e2,A,e,,若前
o.
个特征值的和与总方差上4的比大于,则
loI
VzAgle:+人+丸已。em7+D
f√五彳1f《
1
=(√丑q,A,√厶%1MI+I
O
I√九L.I
I盯;J
=AA’+D
因子载荷阵A2(√丑巳,人,√丸%),砰=%一∑彳,(汪l,2.A,p),
t=l
由这种方法得到因子模型的一个解A及D就是因子模型的主分量解。因子载荷阵A中的第J列的元素与
D
主成分分析中第,个主成分乃=∑唧^的系数啕仅相差
r-
Id
√^倍,因子分析的主分量解也是因此而得名。因子
载荷阵A,舻(60的第i行元素的意义:由模型x=价E
及V=AA
7+D看出,Var(xi)=b21怕刍+A,坛+研,即
b;反映了因子.五载荷了施的方差的量。故我们在求
解因子模型时,可将因子作旋转,使因子载荷阵中每一行的值尽可能两极化(接近于0或接近与±1),使其因子更具实际意义,这样就有了因子旋转的方法求解因
子模型。石=Ap8=APl盼8,令g=可,B=APl,则髫=
则为斜交变换。曰为因子模型的又一解。
4、综合评价的指标不同。因子得分是公因子的估归分析中的参数估计,因为公因子是潜在因素,事先无法度量和观察的。有了因子得分,它们的加权组合就得到综合评价指标E。即.f个因子的得分为向量
《旁
丑.
,∑一
羔A。。
(下转第32页)
盼£,若P为正交阵,则上述变换g=可为正交变换,否
计值。可用最小二乘回归的方法估计,但它又不同于回
统计研究
出相应的研究结果。
“旧房(二手房)房价收入比”是指某一整体内上市旧房(--手房)上市交易的平均价格与居民家庭户均收入的比例,这一指标与新房房价收入比对照,可用于评估该整体内的旧房折旧程度,也可以比较居民家庭对新旧住房的需求情况,从而得出研究结果。
在计算新房房价收入比与旧房房价收入比基础上,再按上市住房总蜃中新房所占的比例和旧房所占的比例作为新房房价收入比和旧房房价收入比的权重,加权计算整体房价收入比,公式为:房价收入比=∑新(IEt)房房价收入比×新(i11)房占上市住房的比例。三、按照居民是否拥有自有住房细分计算房价收入比
目前,我国大多数城市居民家庭拥有自有住房。他们如要进入市场,绝大多数是卖掉原有住房,再去买大些好些的住房,以改善居住条件。对于拥有住房的家庭户,购买新建商品房,其住房消费承受能力不能按新建商品房销售价格与家庭收入的比较来衡量。因为这部分居民可以通过销售自有住房所得来支付购买新建商品房房款÷’,也可以出租自有住房所得来支付银行按揭购房的按揭款。如果考虑这一因素,对这一部分居民家庭购房的房价收入比可以按以下公式计算:有房户房价收入比=(新建商品房平均销售价格一自有住房平均销售价格)÷拥有自有住房居民家庭户均收入。
计算公式的这一改变对房价收入比的计算方法起到了补充和扩展作用,因为它考虑了我国经济发展水平和多数居民拥有自有住房的特点,能够较好的衡量城市居民购买住房的实际承受能力。这一公式计算结果会降低某一区域的房价收入比指标值,在政策与舆论导向上会提高居民购房的心理承受能力。实际上,我国大多数城市房地产业发展很快,房价涨幅较高,主要因素是居民的住房消费需求大于住房供给的结果。城市中,除了最低收入者外,大多数拥有住房的家庭,都具有一定的购买更大更好住房的能力或是具有置换住房的能力。(上接第30页)
上
对于没有住房的居民家庭,情况也不一样,大体可以分为三类:第一类是自身有较高收入或可以得到家庭支持的无房户(这类无房户所占比重较小),实际上有较高的购房能力;第二类是中等收入者无房户,其中年轻人占的比重最大,政府应鼓励他们购房,用人单位给予一定的补贴;第三类是低收人者无房户,应通过政府的廉租屋政策来解决居住问题,不参加买方行列,使他们能享受政府福利,享受改革开放的成果。对第一类与第二类无房户,房价收入比可以按市场平均房价与它们的平均收入之比计算。
在分别计算有房户与无房户的房价收入比基础上,同样也可以用有房户和无房户占总家庭户数的比例作为它们各自房价收入比的权重,计算某地区的综合房价收入比,公式为:房价收入比=∑有(无)房户的房价收入比×有(无)房户家庭户数占总家庭房数的比例。
总之,为了正确的衡量广大居民住房消费的能力,制定科学合理的政策,引导房地产市场的健康发展,需要不断的深化研究房价收入比的计算方法。前面介绍的房价收入比指标从不同的角度反映居民住房消费承受能力,而且每种角度计算都会使得整体的房价收入比指标值比现行计算的房价收入比指标值要小,也就是说,考虑到各收入阶层的不同、新旧住房的区别、是否存在自有住房这几方面因素之后,让我们再用所得到的房价收人比来评价整体居民的住房消费承受能力,就会对部分专家认为的“现在我国已经出现了住房泡沫危机”有一个更清晰的认识。
分析发达国家经济发展历史,对照我国房地产业发展过程,我国的房地产业总体上还是处在起步阶段。当然在房地产业发展过程中,特别是在起步阶段,市场还不够成熟,市场规则制定与完善以及居民住房消费理性预期的养成,都需要有一个过程,因而,在现阶段,部分地方房价涨幅比较高,也是正常的。笔者觉得,就整体而言,我国现行的房地产业并没有出现很大的泡沫,但可能少数城市,由于人为炒作等原因,可能会存在结构性的供求失衡,存在一定的房地产泡沫。
(作者单位:东北财经大学统计系・邮编:116025)综上所述,主成分分析与因子分析都是综合评价的有效方法,它们有区别,也有联系,第_『个因子上的载荷是该总体第J个主成分的系数的A,倍。用因子分析作综合评价不仅可以给出排名顺序,还可以进一步探索影响排名次序的因素,从而找到进一步努力的方向,这就是因子分析所具有的独到的优越性。
(作者单位:浙江工商大学统计与计算科学学院)
{;;;;i!{j|;;;;;j;;;i;Ejj;;;;;;;i;jj;i;;i;ij;;;;;i;;;;!;;i;i;;!;;;i;÷;;;iii;;;;!i;i;;;;;;j;;;;;!;;;i;;;E;ij;;;;;;;;;;i;;;;i;;;;;ji;!;;;;;;;ii;;;;
而主成分分析一般按第一主成分的得分Y-=艺口rXi的
i=1
值排序,若第一主成分作为综合指标损失较多的信息,
可继续选取第二主成分y2,A,ym等,然后计算其综合得
矗
分二wjyj再利用综合得分指标排序。
万方数据
综合评价主成分分析方法与因子分析方法的比较
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
钱道翠
浙江工商大学统计与计算科学学院浙江统计
ZHEJIANG STATISTICS2004(9)5次
引证文献(5条)
1高磊 基于主成分分析方法的体育健身消费行为影响因素研究[期刊论文]-市场论坛 2009(1)
2田开郑宗培虞小海 主成分分析法在学生成绩分析中的应用[期刊论文]-大众商务(下半月) 2009(12)3FEI Nina刘新平 入境游客对我国旅游接待设施评价的因子分析[期刊论文]-西安石油大学学报(社会科学版)2008(3)
4应敏 多元统计分析在考试成绩分析中的应用[期刊论文]-中国科技信息 2006(4)5石丽君 国际科技活动效率评价方法研究[学位论文]硕士 2005
本文链接:comcn/Periodical_zjtj200409013aspx
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。 Fp = a1iZX1 + a2iZX2 + …… + apiZXp
其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化。
A = (aij)p×m = (a1,a2,…am,), Rai = λiai,
R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量, λ1 ≥ λ2 ≥ …≥ λp ≥ 0 。
进行主成分分析主要步骤如下:
1 指标数据标准化(SPSS软件自动执行);
2 指标之间的相关性判定;
3 确定主成分个数m;
4 主成分Fi表达式;
5 主成分Fi命名;
任何一种地质现象或观测结果,都是许多地质因素综合作用的结果,这个结果反映了各种地质因素间的内在联系。从这个客观事实出发,有些问题只有研究综合变量才能取得满意的效果。在天然放射性γ能谱测量中,依据铀、钍、钾三个放射性元素的含量形成的组合因子来解释放射性异常、区分某些土壤及岩石的类型比用单个放射性元素更合理、更准确。这是由于在同一事物中,许多单个因素间的关联性和复杂性(分别用它们之间的相关程度和变化性来体现)寓于一个统一体中,而且起主导作用的综合因素更能表述各单因素所揭示的事物的本质。所以抓住了这些主要的综合因素(即主因子),对事物进行分类,研究找矿规律,预测盲矿体,研究矿床成因等就简单容易了。据此,引出了因子分析。
因子分析是把多个变量通过线性组合转化成少数不相关变量(即综合变量)的一种多元统计分析办法。它分为R型和Q型两种类型。R型因子分析研究变量之间的相关关系,通过研究变量间的相关矩阵的内部结构,找出控制所有变量的几个主要成分。所以,R型因子分析又称为主成分分析。Q型因子分析研究样品(此时样品称为因子)之间的相似关系,通过研究样品间相似系数矩阵的内部结构,找出控制所有样品的几个主要因子,所以Q型因子分析又称为主因子分析。这两种因子分析的运算过程一样,只是出发点不同,用途也不同。
放射性勘探中主要使用主成分分析对γ能谱数据进行分析和解释,故在这里所讨论的因子分析为主成分分析。
主成分分析实际是一种降维方法,为了某个目的,常常需要将观测变量用一个或几个主要的组合变量取代多种观测变量,应用主成分分析就可实现这一要求。
(一)主成分分析的原理
对于多元变量来说,设有x1,x2,…,xp个原始变量,为了获得m个(m≤p)组合变量(即综合变量)采用如下的线性组合方法,即
放射性勘探方法
并要求
1) =1,(i=1,2,…,m);
2)系数{aij}由下述原则确定:①线性组合Fi与Fj(i≠j;i,j=1,2,…,m)互不相关;②F1的方差在x1,x2,…,xp的一切线性组合中是最大的;在与F1不相关的x1,x2,…,xp的所有线性组合中F2的方差是最大的;在与F1,F2…,Fm-1都不相关的x1,x2,…,xp的所有线性组合中Fm的方差是最大的。
这样确定的组合变量F1,F2,…,Fm分别称为原始变量的第一、第二……,第m个主成分。其中F1在组合变量的总方差中占的比例最大。其余第二、第三等主要成分F2,F3,…,Fm的方差依次递减,即相应主成分的重要性也依次递减。在实际工作中,一般只挑选前几个主成分进行地质解释,这样不仅减少了变量个数,而且抓住了事物变化的主要原因,容易揭示问题的本质。
(二)主成分的导出
确定主成分问题就是找出p维空间中观测点所组成的椭球的主轴问题。在代数学上,主成分问题就是求观测变量的相关矩阵中m个较大特征值所对应的特征向量。
设样品X=[x1,x2,…,xp]是一个p维随机向量;且遵循正态分布X~N(μ,∑),其中,μ=[μ1,μ2,…,μp]',∑p×p=[∑ij]为一协方差矩阵。
寻找X的线性组合aX,使aX相应的方差尽可能大,这就是说,要寻找一个正交矩阵a,使aa'=I,且使方差
放射性勘探方法
为解决这个问题,设∑的特征值λ1≥λ2≥…λp≥0,又设对应于λi(i=1,2,…,p)的特征向量为Up×p=[u1,u2,…,up],且U是正交矩阵,即UU'=I(单位矩阵)。又由于∑为实对称矩阵,故有
放射性勘探方法
因此方差
放射性勘探方法
所以
放射性勘探方法
而且,当a=u1时,
放射性勘探方法
等式成立。因此,a=u1就能达到方差最大的要求。即
放射性勘探方法
同理 ,而且只有i≠j时,协方差
放射性勘探方法
这样找出的组合变量F1=u'1X,F2=u'2X,…,Fp=u'pX,可看成新的随机向量,且Fi(i=1,2,…,p)相互独立,var(Fi)=λi,而且服从均值向量为μF,协方差矩阵为Λ的多元正态分布
放射性勘探方法
式中:
放射性勘探方法
放射性勘探方法
上述分析表明,组合变量Fi的系数ai是协方差矩阵∑的特征值λi所对应的特征向量,而λi是组合变量Fi的方差。因此每一个组合变量的重要性就可以用相应的特征值λi来表示。一般用其占总方差的百分比描述:
放射性勘探方法
(三)γ能谱数据的主成分分析及应用
1γ能谱数据处理步骤
设测区的取样点数为n,变量个数为3,分别表示铀、钍、钾元素,第j变量在第i样品上的取值为xij。
1)计算各元素的均值 和方差sj。
2)求相关矩阵或协方差矩阵B=[bkl]m×n。
3)求主分量(亦即求解矩阵B):
设矩阵B的特征值为λ,特征向量为A,则
BA=λA 或 BA-λA=0
上式左乘单位矩
EBA-EλA=0
(BE-λE)·A=0
故
(B-λE)·A=0
上式成立的充要条件是系数行列式等于零
B-λE=0
此方程称为A的特征方程,解此方程可求出p个特征值λi(λ1≥λ2≥…≥λp)。
将λi代入BA-λA=0 式,可求得相应的特征向量,即主分量aji。
4)求主分量得分,主分量得分的数学公式为:fi= aji·xi(i=1,2,…,p)。
5)绘制各主分量得分等值线图。
2应用实例
[例1]柴达木盆地中部地区航空γ能谱数据的主分量分析实例。
1)计算各变量的均值和均方差,见下表6-9。
表6-9 柴达木盆地中部地区各变量均值和均方差
2)计算相关矩阵,结果为
放射性勘探方法
3)求矩阵特征值和求特征向量。矩阵A的特征方程为
放射性勘探方法
解此方程组即求得特征值λi(i=1,2,3)。将λi代入下式即可求得对应λi的特征向量ai(i=1,2,3)。计算结果见表6-10。
放射性勘探方法
表6-10 主分量、特征值及主分量与原始变量的相关关系(Z)
特征值(λ)=188 082 080
方差贡献(%)=63 27 10
4)计算测区各测点的主分量得分,并绘制主分量得分等值线图。
第一主分量得分,f1=062K+042U+066Th
第二主分量得分,f2=-040K+090U-019Th
第三主分量得分,f3=066K+014U-073Th
应用主分量分析方法处理航空伽马能谱测量数据,可用来进行岩性填图和成矿远景预测。对于青海柴达木盆地小部地区来说,第一主分量较好地反映出该区的地表岩性特征,主要指示了原始的沉积环境,而第二和第三主分量则主要反映了该区的湖相沉积作用,其中第二主分量集中代表了生铀环境,第三主分且集中代表了蒸发盐型钾盐的生成环境。
[例2]航空γ能谱测量在阿龙山地区浅覆盖区填图。
经计算得到三个主分量:
第一主分量为 f1=03311U-09436Th+07299K
第二主分量为 f2=-081139U+01486Th+05616K
第三主分量为 f3=05164U+06298Th+05802K
三主分量的方差贡献分别为:66%,202%,73%。由此见第三主分量的贡献最大。作了第三主分量得分等值图,它与K含量等值线图非常相似,高值对应高放射性区,中值对应中放射性区,低值对应低放射性区。所以主分量f3与地质体之间有一定的系,它的值的高低反映了不同填图单元。
一、主成分分析
1、简介
在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
2、原理
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。
二、主成分分析的基本思想及步骤
1、基本思想
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2、步骤
Fp=a1iZX1+a2iZX2+……+apiZXp 其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。 A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0 。 进行主成分分析主要步骤如下: 1 指标数据标准化(SPSS软件自动执行); 2 指标之间的相关性判定; 3 确定主成分个数m; 4 主成分Fi表达式; 5 主成分Fi命名;
主成分分析(PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由现行相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于姜维方法。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理。
统计分析比中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数几个不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的不部分信息。
主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1,。之后对数据进行正交变换,用来由线性相关表示的数据,通过正交变换变成若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和(信息保存)最大的,方差表示在新变量上信息的大小。将新变量一次成为第一主成分,第二主成分等。通过主成分分析,可以利用主成分近似地表示原始数据,这可理解为发现数据的“基本结构”;也可以把数据由少数主成分表示,这可理解为对数据降维。
方差最大的解释。假设有两个变量 ,三个样本点A,B,C。样本分布在由 轴组成的坐标系中,对坐标系进行旋转变换,得到新的坐标轴 ,表示新的变量 。坐标值的平方和 表示样本在变量 上的方差和。主成分分析旨在选取正交变换中方差最大的变量,作为第一主成分,也是是旋转变换中坐标值的平方和最大的轴。注意到旋转变换中变换中样本点到原点距离的平方和 不变,根据勾股定理,坐标值的平方和最大 等价于样本点到 轴的距离平方和 最小。所以,等价地,主成分分析在旋转变换中选取离样本点的距离的平方和最小的轴,作为第一主成分。第二主成分等的选取,在保证与已有坐标轴正交的条件下,类似地进行
假设 是m维随机变量,其均值是
,
协方差矩阵是
考虑到m维随机变量 到m维随机变量 的线性变换
其中
由随机变量的性质可知
总体主成分的定义 给定式(1)所示的线性变换,如果他们满足下列条件
设 是m维随机变量, 是 的协方差矩阵, 的特征值分别是 ,特征值对应的单位特征向量分别是 ,则 的第k主成分是
的第k主成分的方差是
即协方差矩阵 的第k个特征值
首先求 的第一主成分 ,即求系数向量 。第一主成分的 是在 的条件下, 的所有线性变换中使方差达到最大的
求第一主成分就是求解最优化问题
定义拉格朗日函数
其中 是拉格朗日乘子,将拉格朗日函数对 求导,并令其为0,得
因此 是 的特征值, 是对应的单位特征向量。于是目标函数
假设 是 的最大特征值 对应的单位特征向量,显然 与 是最优化问题的解,所以, 构成第一主成分,其方差等于协方差矩阵的最大特征值
接着求 的第二主成分 ,第二主成分的 是在 且 与 不相关条件下, 的所有线性变换中使达到最大
求第二主成分需参求解约束最优化问题
定义拉格朗日函数
其中 对应拉格朗日乘子。对 求偏导,并令其为0,得
将方程左则乘以 有
此式前两项为0,且 ,导出 ,因此式成为
由此, 是 的特征值, 是对应的特征向量,于是目标函数为
假设 是 的第二大特征值 的特征向量,显然 是以上最优化问题的解。于是 构成第二主成分,其方差等于协方差矩阵的第二大特征值,
按照上述方法可以求得第一、第二、直到第m个主成分,其系数向量 分别是 的第一、第二、直到m个单位特征向量, 分别是对应的特征值。并且,第k主成分的方差等于 的第k个特征值。
主成分分析的主要目的是降维,所以一般选择 个主成分(线性无观变量),使问题得以简化,并能保留原有变量的大部分信息。这里所说的信息是指原有信息的方差。
对任意正整数 ,考虑正交线性变换
其中 是q的维向量, 是qm维矩阵,令 的协方差矩阵为
则 的迹 在 时取最大值,其中矩阵 是由正交矩阵A的前q列组成。
这表明,当 的线性变换 在 时,其协方差矩阵 的迹 取得最大值。也就是说,当A取前 的前q个主成分时,能够最大限度地保留原有变量方差的信息。
以上作为选择k个主成分的理论依据。具体选择k的方法,通常利用方差贡献率。
第k主成分 的方差贡献率定义为 的方差与所有方差之和的比记作
k个主成分 的累计方差贡献率定义为k个方差之和和所有方差之和的比
通常取k使得累计方差贡献率达到规定的百分比以上,例如70%~80%。累计方差贡献率反映了主成分保留信息的比例,但它不能反映对某个原有变量 保留信息的比例,这时通常利用k个主成分 对原有变量 的贡献率。
k个主成分 对原有变量 的贡献率为 , 的相关系数的平方,记作
计算公式如下:
其中, 是随机变量 的方差,即协方差矩阵 的对角元素。
在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果,为了消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1
设 为随机变量, 为第i个随机变量, ,令
其中, 分布是随机变量 的均值和方差,这时 就是 的规范化随机变量。
在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。样本主成分也和总体主成分具体相同的性质。
使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵如下操作:
其中
样本协方差矩阵S是中体协方差矩阵 的无偏估计,样本相关矩阵R是总体相关矩阵的无偏估计,S的特征值和特征向量 的特征值和特征向量的无偏估计。
传统的主成分分析通过数据的协方差矩阵或相关矩阵的特征值分解进行,现在常用的方法是通过数据矩阵的奇异值分解进行。下面介绍数据的协方差矩阵或相关矩阵的分解方法
给定样本矩阵 ,利用数据的样本的协方差矩阵或样本相关矩阵的特征值分解进行主成分分析
给定样本矩阵 ,利用数据矩阵奇异值分解进行主成分分析,这里没有假设k个主成分
对于 维实矩阵A,假设其秩为r, ,则可将矩阵A进行截断奇异值分解
式 是 矩阵, 是k阶对角矩阵, 分别由取A的完全奇异分解的矩阵U,V的前k列, 由完全奇异分解的矩阵 的前k个对角元素得到
定义一个新的 矩阵
的每一列均值为0,
即 等于X的协方差矩阵
主成分分析归结于求协方差矩阵 的特征值和对应的单位特征向量。
假设 的截断奇异值分解为 ,那么V 的列向量就是 的单位向量,因此V的列向量就是X的主成分。于是X求X的主成分可以通过 的奇异值来实现
欢迎分享,转载请注明来源:品搜搜测评网