收藏
立即下载
为了提升浏览体验,原视图版网页已升级为如下版式
主成分分析法的步骤和原理
主成分分析法的步骤和原理pdf
43891K, 15页, 13478次阅读
sshiiwengy6 分享于2016-11-16 09:09
立即下载 举报
(一)主成分分析法的基本思想
主成分分析(Principal Component Analysis )是利用降维的思想,将多个变 量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性 组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信 息,且所含的信息互不重叠。[2]
采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺 点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问 题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型
假设用p个变量来描述研究对象,分别用 X1, X2…Xp来表示,这p个变量 构成的p维随机向量为X=(X1, X2…Xp)t。设随机向量X 的均值为μ,协方差 矩阵为Σ。假设 X 是以 n 个标量随机变量组成的列向量,并且μk 是其第k个元素的 期望值,即,μk= E(xk),协方差矩阵然后被定义为:
Σ=E{(X-E[X])(X-E [X])}=(如图
对 X 进行线性变化,考虑原始变量的线性组合:
Zp=μ p1X1+μ p2X2+…μ ppXp
主成分是不相关的线性组合Z1, Z2……Zp,并且Z1是 X1, X2…Xp的线性 组合中方差最大者, Z2是与 Z1不相关的线性组合中方差最大者,…, Zp是与
Z1, Z2 ……Zp-1 都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤
第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始 数据可得矩阵 X=(xij)m×p,其中 xij表示第 i 家上市公司的第 j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标 数据进行标准化,得到标准化矩阵(系统自动生成)。
第三步:根据标准化数据矩阵建立协方差矩阵 R,是反映标准化后的数据 之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分 析。其中, Rij (i, j=1, 2,…, p)为原始变量Xi与Xj的相关系数。 R为实对 称矩阵(即 Rij=Rji),只需计算其上三角元素或下三角元素即可,其计算公式为:
1/15页
n
第四步:根据协方差矩阵 R 求出特征值、主成分贡献率和累计方差贡献率, 确定主成分个数。解特征方程ER 0,求出特征值λi
(i=1, 2,…, p)。因为R是正定矩阵,所以其特征值λi都为正数,将其按 大小顺序排列,即λ1≥λ2≥…≥λi≥0。特征值是各主成分的方差,它的大
1 且累计贡
献率达80%-95%的特征值λ1,λ2,…,λm所对应的1, 2,…, m (m≤p), 其中整数 m 即为主成分的个数。
第五步:建立初始因子载荷矩阵,解释主成分。因子载荷量是主成分Zi与 原始指标Xi的相关系数R (Zi, Xi),揭示了主成分与各财务比率之间的相关程 度,利用它可较好地解释主成分的经济意义。
第六步:计算企业财务综合评分函数Fm,计算出上市公司的综合值,并进 行降序排列:
Fm=W1Z1 + W2Z2+…+ WiZi
0你这个问卷设计得有问题,我用你的数据做了个问卷的项目分析:分别是题总相关、题项区分度。两项分析得出的结果都不是很理想。
1在题项总相关那里,只有域名规范、响应速度是显著的,即是跟你的问卷目的相关。
2而在体相区分度那里,只得出定制服务、域名规范、隐私说明、响应速度、语言版本这5项的数据。
首先说明了只有这5项数据符合spss的检验要求。因为从你你的统计数据也可以看出,1、2、5、6、10(对应信息检索、网站地图、域名规范、版权说明、ICP备案)五项都是相同的数据,说明没有区分度,不存在统计意义!!
而在制服务、域名规范、隐私说明、响应速度、语言版本这5项里,得出的区分度分析都不显著,均没有鉴别度,不能鉴别出不同问卷回答者的反应程度。
3结论:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。以上的结果表明,是在是提不出至少两个相互无关的指标(主因子)来分组,因为你的题项没有区分度,相关性很强。
素以你的问卷设计有问题,需要从新设计题项或者答案!!所以不能进行主成份分析。
希望能帮到你!!
、
好辛苦啊,给分吧~~~~~!!我没金币了··T
T
3221 技术原理
主成分分析方法(PCA)是常用的数据降维方法,应用于多变量大样本的统计分析当中,大量的统计数据能够提供丰富的信息,利于进行规律探索,但同时增加了其他非主要因素的干扰和问题分析的复杂性,增加了工作量,影响分析结果的精确程度,因此利用主成分分析的降维方法,对所收集的资料作全面的分析,减少分析指标的同时,尽量减少原指标包含信息的损失,把多个变量(指标)化为少数几个可以反映原来多个变量的大部分信息的综合指标。
主成分分析法的建立,假设xi1,xi2,…,xim是i个样品的m个原有变量,是均值为零、标准差为1的标准化变量,概化为p个综合指标F1,F2,…,Fp,则主成分可由原始变量线性表示:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
计算主成分模型中的各个成分载荷。通过对主成分和成分载荷的数据处理产生主成分分析结论。
3222 方法流程
1)首先对数据进行标准化,消除不同量纲对数据的影响,标准化可采用极值法 及标准差标准化法 ,其中s= (图33);
图33 方法流程图
2)根据标准化数据求出方差矩阵;
3)求出共变量矩阵的特征根和特征变量,根据特征根,确定主成分;
4)结合专业知识和各主成分所蕴藏的信息给予恰当的解释,并充分运用其来判断样品的特性。
3223 适用范围
主成分分析不能作为一个模型来描述,它只是通常的变量变换,主成分分析中主成分的个数和变量个数p相同,是将主成分表示为原始变量的线性组合,它是将一组具有相关关系的变量变换为一组互不相关的变量。适用于对具有相关性的多指标进行降维,寻求主要影响因素的统计问题。
在社会调查中,对于同一个变量,研究者往往用多个不同的问题来测量一个人的意见。这些不同的问题构成了所谓的测度项,它们代表一个变量的不同方面。主成分分析法被用来对这些变量进行降维处理,使它们“浓缩”为一个变量,称为因子。
在用主成分分析法进行因子求解时,我们最多可以得到与测度项个数一样多的因子。如果保留所有的因子,就起不到降维的目的了。但是我们知道因子的大小排列,我们可以对它们进行舍取。哪有那么多小的因子需要舍弃呢?在一般的行为研究中,我们常常用到的判断方法有两个:特征根大于1法与碎石坡法。
因为因子中的信息可以用特征根来表示,所以我们有特征根大于1这个规则。如果一个因子的特征根大于1就保留,否则抛弃。这个规则,虽然简单易用,却只是一个经验法则(rule of thumb),没有明确的统计检验。不幸的是,统计检验的方法在实际中并不比这个经验法则更有效(Gorsuch, 1983)。所以这个经验法则至今仍是最常用的法则。作为一个经验法则,它不总是正确的。它会高估或者低估实际的因子个数。它的适用范围是20-40个的测度项,每个理论因子对应3-5个测度项,并且样本量是大的 ( 3100)。
碎石坡法是一种看图方法。如果我们以因子的次序为X轴、以特征根大小为Y轴,我们可以把特征根随因子的变化画在一个坐标上,因子特征根呈下降趋势。这个趋势线的头部快速下降,而尾部则变得平坦。从尾部开始逆向对尾部画一条回归线,远高于回归线的点代表主要的因子,回归线两旁的点代表次要因子。但是碎石坡法往往高估因子的个数。这种方法相对于第一种方法更不可靠,所以在实际研究中一般不用。
抛弃小因子、保留大因子之后,降维的目的就达到了。 在对社会调查数据进行分析时,除了把相关的问题综合成因子并保留大的因子,研究者往往还需要对因子与测度项之间的关系进行检验,以确保每一个主要的因子(主成分)对应于一组意义相关的测度项。为了更清楚的展现因子与测度项之间的关系,研究者需要进行因子旋转。常见的旋转方法是VARIMAX旋转。旋转之后,如果一个测度项与对应的因子的相关度很高(>05)就被认为是可以接受的。如果一个测度项与一个不对应的因子的相关度过高(>04),则是不可接受的,这样的测度项可能需要修改或淘汰。
用主成分分析法得到因子,并用因子旋转分析测度项与因子关系的过程往往被称为探索性因子分析。
在探索性因子分析被接受之后,研究者可以对这些因子之间的关系进行进一步测试,比如用结构方程分析来做假设检验。 1问题的提出主成分分析是一种降维的方法,便于分析问题,在诸多领域中都有广泛的应用。但有些教科书与论文使用主成分分析时,出现了一些错误与不足,不能解决实际问题。如一些多元统计分析的教材中,用协方差矩阵的主成分分析出现了如下错误与不足:①没有明确和判断该数据降维的条件是否成立。②主成分系数的平方和不为1。③没有明确和判断所用数据是否适合作单独的主成分分析。④选取的主成分对原始变量没有代表性。以下从相关性等理论与结果上依次解决上述问题,并给出相应建议。2数据在行为与心理研究中,常常要求分析某种身份的人的行为特征,如本例中的小学生的日常行为特征,从而根据这些特征引导小学生向更积极的行为态度发展。这里用文献[1]的数据见表1,其来自某课题组的调查结果。课题组对北方某小学480名5~6年级学生的日常行为进行调查,共调查了11项指标如下:S1~对老师提问的反应、S2~对班级事务的关心、S3~自习课上的表现、S4~对家庭作业的态度、S5~关心同学的程度、S6~对待劳动的态度、S7~学习上的特殊兴趣、S8~对待体育锻炼的态度、S9~在娱乐上的偏好、S10~解决问题的思考方式、S11~对未来的打算
主成分分析法和层次分析法异同
1基于相关性分析的指标筛选原理
两个指标之间的相关系数,反映了两个指标之间的相关性[1]。相关系数越大,两个指标反映的信息相关性就越高[1]。而为了使评价指标体系简洁有效,就需要避免指标反映信息重复[1]。通过计算同一准则层中各个评价指标之间的相关系数,删除相关系数较大的指标,避免了评价指标所反映的信息重复[2]。通过相关性分析,简化了指标体系,保证了指标体系的简洁有效[2]。
2基于主成分分析的指标筛选原理
(1)因子载荷的原理
通过对剩余多个指标进行主成分分析,得到每个指标的因子载荷。因子载荷的绝对值小于等于1,而绝对值越是趋向于1,指标对评价结果越重要[3]。
(2)基于主成分分析的指标筛选原理
因子载荷反映指标对评价结果的影响程度,因子载荷绝对值越大表示指标对评价结果越重要,越应该保留;反之,越应该删除。1通过对相关性分析筛选后的指标进行主成分分析,得到每个指标的因子载荷,从而删除因子载荷小的指标,保证筛选出重要的指标[2]。
3相关性分析和主成分分析相同点
一是,基于相关性分析的指标筛选和基于主成分分析的指标筛选,均是在准则层内进行指标的筛选处理,准则层之间不进行筛选。这种做法的原因是,通过人为地划分不同准则层,反映评价事物不同层面的状况,避免误删反应信息不同的重要指标[2]。
二是,基于相关性分析的指标筛选和基于主成分分析的指标筛选的思路,均是筛选出少量具有代表性的指标[2]。
4相关性分析和主成分分析不同点
一是,两次筛选的目的不同:基于相关性分析的指标筛选的目的是删除反应信息冗余的评价指标。基于主成分分析的指标筛选的目的是删除对评价结果影响较小的评价指标[2]。
二是,两次筛选的作用不同:基于相关性分析的指标筛选的作用是保证蹄选出的评价指标体系简洁明快。基于主成分分析的指标简选的目的是筛选出重要的指标[2]。
[1]迟国泰,曹婷婷,张昆基于相关主成分分析的人的全面发展评价指标体系的构建[J]系统工
程理论与实践,2013,32(1):112-119
[2]李鸿禧基于相关主成分分析的港口物流评价研究[D]辽宁大连:大连理工大学,2013
[3]孙慧,刘媛媛,张娜娜基于主成分分析的煤炭产业竞争力实证研究[J]资源与产业,2012,14(1):145-149
如何用SPSS软件进行主成分分析郭显光摘要文章指出《统计分析软件SPSS/PC+》中主成分分析举例中的一处错误,比较了主成分分析和因子分析的异同,进而指出用SPSS软件不能直接进行主成分分析。作者根据主成分分析和因子分析的关系,提出一种先用SPSS的PC法得出因子载荷阵,然后求出特征向量,建立主成分模型的主成分分析计算方法。关键词主成分分析因子分析因子载荷阵特征向量一、关于主成分分析举例中的一处错误在SPSS的高级统计分析命令中,有因子分析的功能。例如,用FACTOR命令可以进行因子分析,用EXTRACTION子命令可以输出因子模型阵、变量被解释的因子方差、所提取的因子特征根和每个特征根代表的变量X总方差的百分比。在使用该命令时,可以指定提取因子的方法,包括PC(主成分法)、PAF(主轴因子法)等等,也可以指定因子旋转方式。在童忠勇教授主编的《统计分析软件SPSS/PC+》(陕西人民教育出版社,1990年)一书中,第213-215页给出了一个例子:某地区对下属12个县人口调查,其中5个经济变量为:X1(住户数)、X2(学校数)、X3(就业人数)、X4(年收(本文共计5页)
在SPSS中,主成分分析是通过设置因子分析中的抽取方法实现的,如果设置的抽取方法是主成分,那么计算的就是主成分得分,另外,因子分析和主成分分析尽管原理不同,但是两者综合得分的计算方法是一致的。
层次分析法根据问题的性质和要达到的总目标,将问题分解为不同的组成因素,并按照因素间的相互关联影响以及隶属关系将因素按不同层次聚集组合,
形成一个多层次的分析结构模型,从而最终使问题归结为最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要权值的确定或相对优劣次序的排定。
扩展资料:
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,
使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
-主成分分析法
欢迎分享,转载请注明来源:品搜搜测评网