主成分分析的基本步骤

主成分分析的基本步骤,第1张

基本步骤如下:

标准化

输入数据集变量的范围标准化,以使它们中的每一个均可大致成比例地分析。如果初始变量的范围之间存在较大差异,那么范围较大的变量将占据范围较小的变量(例如,范围介于0和100之间的变量将占据0到1之间的变量),这将导致主成分的偏差。因此,将数据转换为可比较的比例可避免此问题。

协方差矩阵计算

了解输入数据集的变量是如何相对于平均值变化的。

计算协方差矩阵的特征向量和特征值,用以识别主成分。

特征向量和特征值都是线性代数概念,需要从协方差矩阵计算得出,以便确定数据的主成分。

希望以上回答能对您有所帮助,谢谢。

1输入数据。

2点Analyze 下拉菜单,选Data Reduction 下的Factor 。

3打开Factor Analysis后,将数据变量逐个选中进入Variables 对话框中。

4单击主对话框中的Descriptive按扭,打开Factor Analysis: Descriptives子对话框,在Statistics栏中选择Univariate Descriptives项要求输出个变量的均值与标准差,在Correlation Matrix 栏内选择Coefficients项,要求计算相关系数矩阵,单击Continue按钮返回Factor Analysis主对话框。

5单击主对话框中的Extraction 按钮,打开如下图所示的Factor Analysis: Extraction 子对话框。在Method列表中选择默认因子抽取方法——Principal Components,在Analyze 栏中选择默认的Correlation Matrix 项要求从相关系数矩阵出发求解主成分,在Exact 栏中选择Number of Factors;6, 要求显示所有主成分的得分和所能解释的方差。单击Continue按钮返回Factor Analysis主对话框。

6单击主对话框中的OK 按钮,输出结果。

统计专业研究生工作室原创,请勿复杂粘贴

主成分分析法的步骤:对原始数据标准化、计算相关系数、计算特征、确定主成分、合成主成分。

主成分分析是指通过将一组可能存在相关性的变量转换城一组线性不相关的变量,转换后的这组变量叫主成分。

在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K皮尔森对非随机变量引入的,尔后H。霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

主成分分析法的原理

在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

目录

1简介

2主要目的

3分析步骤

4应用分析

▪ 应用

▪ 因子旋转

▪ 问题

1简介编辑

principal component analysis(PCA) 主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。

其中Li为p维正交化向量(LiLi=1),Zi之间互不相关且按照方差由大到小排列,则称Zi为X的第I个主成分。设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值λi(按从大到小排序)及其特征向量,可以证明,λi所对应的正交化特征向量,即为第I个主成分Zi所对应的系数向量Li,而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主成分的数量k满足Σλk/Σλj>085。

2主要目的编辑

是希望用较少的变量去解释原来资料中的大部分变量,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中变量的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。

3分析步骤编辑

数据标准化;

求相关系数矩阵;

主成分分析法步骤

一系列正交变换,使非对角线上的数置0,加到主对角上;

得特征根系(即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列;

求各个特征根对应的特征向量;

用下式计算每个特征根的贡献率Vi;

Vi=xi/(x1+x2+)

根据特征根及其特征向量解释主成分物理意义。

4应用分析编辑

应用

在社会调查中,对于同一个变量,研究者往往用多个不同的问题来测量一个人的意见。这些不同的问题构成了所谓的测度项,它们代表一个变量的不同方面。主成分分析法被用来对这些变量进行降维处理,使它们“浓缩”为一个变量,称为因子。

在用主成分分析法进行因子求解时,我们最多可以得到与测度项个数一样多的因子。如果保留所有的因子,就起不到降维的目的了。但是我们知道因子的大小排列,我们可以对它们进行舍取。哪有那么多小的因子需要舍弃呢?在一般的行为研究中,我们常常用到的判断方法有两个:特征根大于1法与碎石坡法。

因为因子中的信息可以用特征根来表示,所以我们有特征根大于1这个规则。如果一个因子的特征根大于1就保留,否则抛弃。这个规则,虽然简单易用,却只是一个经验法则(rule of thumb),没有明确的统计检验。不幸的是,统计检验的方法在实际中并不比这个经验法则更有效(Gorsuch, 1983)。所以这个经验法则至今仍是最常用的法则。作为一个经验法则,它不总是正确的。它会高估或者低估实际的因子个数。它的适用范围是20-40个的测度项,每个理论因子对应3-5个测度项,并且样本量是大的 ( 3100)。

碎石坡法是一种看图方法。如果我们以因子的次序为X轴、以特征根大小为Y轴,我们可以把特征根随因子的变化画在一个坐标上,因子特征根呈下降趋势。这个趋势线的头部快速下降,而尾部则变得平坦。从尾部开始逆向对尾部画一条回归线,远高于回归线的点代表主要的因子,回归线两旁的点代表次要因子。但是碎石坡法往往高估因子的个数。这种方法相对于第一种方法更不可靠,所以在实际研究中一般不用。

抛弃小因子、保留大因子之后,降维的目的就达到了。

因子旋转

在对社会调查数据进行分析时,除了把相关的问题综合成因子并保留大的因子,研究者往往还需要对因子与测度项之间的关系进行检验,以确保每一个主要的因子(主成分)对应于一组意义相关的测度项。为了更清楚的展现因子与测度项之间的关系,研究者需要进行因子旋转。常见的旋转方法是VARIMAX旋转。旋转之后,如果一个测度项与对应的因子的相关度很高(>05)就被认为是可以接受的。如果一个测度项与一个不对应的因子的相关度过高(>04),则是不可接受的,这样的测度项可能需要修改或淘汰。

用主成分分析法得到因子,并用因子旋转分析测度项与因子关系的过程往往被称为探索性因子分析。

在探索性因子分析被接受之后,研究者可以对这些因子之间的关系进行进一步测试,比如用结构方程分析来做假设检验。

问题

1问题的提出主成分分析是一种降维的方法,便于分析问题,在诸多领域中都有广泛的应用。但有些教科书与论文使用主成分分析时,出现了一些错误与不足,不能解决实际问题。如一些多元统计分析的教材中,用协方差矩阵的主成分分析出现了如下错误与不足:①没有明确和判断该数据降维的条件是否成立。②主成分系数的平方和不为1。③没有明确和判断所用数据是否适合作单独的主成分分析。④选取的主成分对原始变量没有代表性。以下从相关性等理论与结果上依次解决上述问题,并给出相应建议。2数据在行为与心理研究中,常常要求分析某种身份的人的行为特征,如本例中的小学生的日常行为特征,从而根据这些特征引导小学生向更积极的行为态度发展。这里用文献[1]的数据见表1,其来自某课题组的调查结果。课题组对北方某小学480名5~6年级学生的日常行为进行调查,共调查了11项指标如下:S1~对老师提问的反应、S2~对班级事务的关心、S3~自习课上的表现、S4~对家庭作业的态度、S5~关心同学的程度、S6~对待劳动的态度、S7~学习上的特殊兴趣、S8~对待体育锻炼的态度、S9~在娱乐上的偏好、S10~解决问题的思考方式、S11~对未来的打算

以上采自,,,建议可以自己去查,,

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1931799.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-10-28
下一篇2023-10-28

随机推荐

  • 贴牌代加工化妆品商标注册需要哪几类

    商标分类:化妆品行业应该注册哪些类别的商标      尽管面临国内经济增长与零售环境的不确定性,国内化妆品市场仍然保持超越整体可选消费的增速。新冠疫情在带来风险的同时也带来了机遇,在疫情冲击下部分国际化妆品集团业绩亏损较大,但同时一部分国际

    2024-04-15
    78600
  • 白松露眼霜什么功效

    我来告诉你白松露眼霜的功效啦~首先,白松露作为一种稀有及昂贵的食材,其精华能够深入肌肤,提供持久的滋润保湿效果,不仅可以令肌肤变得柔嫩细腻,还能够淡化细纹,提升肌肤弹性,使肌肤显得更加年轻动人。而眼周皮肤最细最娇嫩,其肌肤也很容易出现干燥,

    2024-04-15
    1064100
  • 孕妇可以用的水乳牌子

    孕妇可以用的水乳牌子  孕妇可以用的水乳牌子,很多人都知道,怀孕后是有很多的禁忌需要注意的,特别是护肤品方面,有些成分用了是对胎儿有影响的,所以一定要注意,下面是孕妇可以用的水乳牌子。孕妇可以用的水乳牌

    2024-04-15
    46700
  • 妮维雅洗面奶怎么样?妮维雅男士洗面奶好吗?

    很多护肤品牌大家经常会听说,而且护肤产品价格也不贵,说到妮维雅大家应该并不陌生,妮维雅的洗面奶是很多人都用过的,妮维雅的洗面奶有男士的也有女士的,一直以来妮维雅的洗面奶销量还是不错的,那妮维雅洗面奶怎么样?妮维雅男士洗面奶好吗?1、妮维雅洗

    2024-04-15
    41700
  • 长安和伊思特瓷砖哪个相对比较好,都是佛山产的吗?

    长安瓷砖还是比较有名,具体哪里产的就不要听销售人员给你讲解的了,最好看他们的包装上面的资料。还有就是需要选大厂,大品牌的瓷砖,你想一想你装房子管得最久的是什么?肯定是瓷砖、涂料、门窗那些硬装。像蒙娜丽莎、马可波罗、威尼斯商人瓷砖、冠珠这些都

    2024-04-15
    39400
  • 欧莱雅火山岩洁面膏,水凝露,平衡露和面膜怎么用?顺序

    使用顺序:洁面膏--水凝露--平衡露--面膜一、洁面膏。独特晶红啫喱质地,蕴含火山岩矿物精华。即刻净化油脂污垢,有效减少痘痘。冰感清爽配方,皮肤即刻净爽舒适。使用方法:取适量的产品于掌心,加水揉搓出泡沫。涂抹在润湿的面部并集中在前额,鼻子和

    2024-04-15
    41700
  • 后的套盒哪个系列的最好?有什么区别吗?

    在韩妆界摸爬滚打多年,whoo的套盒也了解了不少。Whoo的套盒有很多系列,以天气丹,拱辰享,津率享三个系列为主推,在韩妆界是有很高的口碑的。下面我就来跟说说,这三个系列的区别在哪吧。1、天气丹天气丹这个系列的套盒主推的是修复肌肤,平衡脸部

    2024-04-15
    39200

发表评论

登录后才能评论
保存