因子分析法如何确定主成分及各个指标的权重?

因子分析法如何确定主成分及各个指标的权重?,第1张

(1)首先将数据标准化,这是考虑到不同数据间的量纲不一致,因而必须要无量纲化。

(2)对标准化后的数据进行因子分析(主成分方法),使用方差最大化旋转。

(3)写出主因子得分和每个主因子的方程贡献率。 Fj =β1jX1 +β2jX2 +β3jX3 + + βnjXn ; Fj 为主成分(j=1、2、、m),X1、X2 、X3 、、Xn 为各个指标,β1j、β2j、β3j、、βnj为各指标在主成分Fj 中的系数得分,用ej表示Fj的方程贡献率。

(4)求出指标权重。 ωi=[(m∑j)βijej]/[(n∑i)(m∑j)βijej],ωi就是指标Xi的权重。

扩展资料

产品特点

1、操作简便

界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。

2、编程方便

具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。

对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。

3、功能强大

具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。

-spss

主成分分析做的仅为变量变换,将原始变量进行线性组合得到互相正交的新变量

因子分析需要构造因子模型,用潜在的假想变量(不可观测的潜在变量)和随机影响变量的线性组合表示原始变量。

因子旋转是因子分析的核心,因子分析模型中公共因子的系数aij 称为因子载荷,所谓载荷亦即aij 表示第i个变量与第j个公共因子的相关系数,其绝对值越大表示相关的密切程度越高。因子旋转实际上是对因子载荷矩阵进行旋转,可以简化因子载荷阵的结构,使载荷矩阵中每列或每行的元素平方值向0和1两极分化,通过因子旋转(实际上是做坐标旋转)使每个原始变量在尽可能少的因子之间有密切关系,这样因子解的实际意义更容易解释。只有少数几个变量在某个公共因子上有较高载荷而其他变量在其上载荷较小或是趋于零时,对该公共因子的解释最为简单。

1、首先打开SPSSAU,右上角上传数据,点击或者拖拽原始数据文件上传。

2、选择进阶方法->主成分,选择需要分析的题目,拖拽到右侧。点击“开始主成分分析”。

3、可以自行设置好要输出的主成分个数,而不是让软件自动识别。

4、完成以上操作后,即可得到分析结果,结果如下:KMO 和 Bartlett 的检验,及智能分析。

主成分分析

主成分分析((Principal Component Analysis,PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分(原来变量的线性组合)。整体思想就是化繁为简,抓住问题关键,也就是降维思想。

主成分分析法是通过恰当的数学变换,使新变量——主成分成为原变量的线性组合,并选取少数几个在变差总信息量中比例较大的主成分来分析事物的一种方法。主成分在变差信息量中的比例越大,它在综合评价中的作用就越大。

因子分析

探索性因子分析法(Exploratory Factor Analysis,EFA)是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。

PCA与EFA模型间的区别

参见图14-1。主成分(PC1和PC2)是观测变量(X1到X5)的线性组合。形成线性组合的权重都是通过最大化各主成分所解释的方差来获得,同时还要保证个主成分间不相关。相反,因子(F1和F2)被当做是观测变量的结构基础或“原因”,而不是它们的线性组合。

R的基础安装包提供了PCA和EFA的函数,分别为princomp()和factanal()。

最常见的分析步骤

(1)数据预处理。PCA和EFA都根据观测变量间的相关性来推导结果。用户可以输入原始数据矩阵或者相关系数矩阵到principal()和fa()函数中。若输入初始数据,相关系数矩阵将会被自动计算,在计算前请确保数据中没有缺失值。

(2)选择因子模型。判断是PCA(数据降维)还是EFA(发现潜在结构)更符合你的研究目标。如果选择EFA方法,你还需要选择一种估计因子模型的方法(如最大似然估计)。

(3)判断要选择的主成分/因子数目。

(4)选择主成分/因子。

(5)旋转主成分/因子。

(6)解释结果。

(7)计算主成分或因子得分。

PCA的目标是用一组较少的不相关变量代替大量相关变量,同时尽可能保留初始变量的信息,这些推导所得的变量称为主成分,它们是观测变量的线性组合。如第一主成分为:

它是k个观测变量的加权组合,对初始变量集的方差解释性最大。第二主成分也是初始变量的线性组合,对方差的解释性排第二,同时与第一主成分正交(不相关)。后面每一个主成分都最大化它对方差的解释程度,同时与之前所有的主成分都正交。理论上来说,你可以选取与变量数相同的主成分,但从实用的角度来看,我们都希望能用较少的主成分来近似全变量集。

主成分与原始变量之间的关系

(1)主成分保留了原始变量绝大多数信息。

(2)主成分的个数大大少于原始变量的数目。

(3)各个主成分之间互不相关。

(4)每个主成分都是原始变量的线性组合。

数据集USJudgeRatings包含了律师对美国高等法院法官的评分。数据框包含43个观测,12个变量。

用来判断PCA中需要多少个主成分的准则:

根据先验经验和理论知识判断主成分数;

根据要解释变量方差的积累值的阈值来判断需要的主成分数;

通过检查变量间k × k的相关系数矩阵来判断保留的主成分数。

最常见的是基于特征值的方法。每个主成分都与相关系数矩阵的特征值相关联,第一主成分与最大的特征值相关联,第二主成分与第二大的特征值相关联,依此类推。

Kaiser-Harris准则建议保留特征值大于1的主成分,特征值小于1的成分所解释的方差比包含在单个变量中的方差更少。Cattell碎石检验则绘制了特征值与主成分数的图形。这类图形可以清晰地展示图形弯曲状况,在图形变化最大处之上的主成分都可保留。最后,你还可以进行模拟,依据与初始矩阵相同大小的随机数据矩阵来判断要提取的特征值。若基于真实数据的某个特征值大于一组随机数据矩阵相应的平均特征值,那么该主成分可以保留。该方法称作平行分析。

图形解读:线段和x符号组成的图(蓝色线):特征值曲线;

红色虚线:根据100个随机数据矩阵推导出来的平均特征值曲线;

绿色实线:特征值准则线(即:y=1的水平线)

判别标准:特征值大于平均特征值,且大于y=1的特征值准则线,被认为是可保留的主成分。根据判别标准,保留1个主成分即可。

faparallel函数学习

faparallel(data,nobs=,fa=”pc”/”both”,niter=100,showlegend=T/F)

data:原始数据数据框;

nobs:当data是相关系数矩阵时,给出原始数据(非原始变量)个数,data是原始数据矩阵时忽略此参数;

fa:“pc”为仅计算主成分,“fa”为因子分析,“both”为计算主成分及因子;

niter:模拟平行分析次数;

showlegend:显示图例。

principal(r, nfactors = , rotate = , scores = )

r:相关系数矩阵或原始数据矩阵;

nfactors:设定主成分数(默认为1);

rotate:指定旋转的方法,默认最大方差旋转(varimax)。

scores:设定是否需要计算主成分得分(默认不需要)。

PC1栏包含了成分载荷,指观测变量与主成分的相关系数。如果提取不止一个主成分,那么还将会有PC2、PC3等栏。成分载荷(component loadings)可用来解释主成分的含义,解释主成分与各变量的相关程度。

h2栏为成分公因子方差,即主成分对每个变量的方差解释度。

u2栏为成分唯一性,即方差无法被主成分解释的部分(1-h2)。

SS loadings包含了与主成分相关联的特征值,其含义是与特定主成分相关联的标准化后的方差值,即可以通过它来看90%的方差可以被多少个成分解释,从而选出主成分(即可使用nfactors=原始变量个数来把所有特征值查出,当然也可以直接通过eigen函数对它的相关矩阵进行查特征值)。

Proportion Var表示每个主成分对整个数据集的解释程度。

Cumulative Var表示各主成分解释程度之和。

Proportion Explained及Cumulative Proportion分别为按现有总解释方差百分比划分主成分及其累积百分比。

结果解读:第一主成分(PC1)与每个变量都高度相关,也就是说,它是一个可用来进行一般性评价的维度。ORAL变量991%的方差都可以被PC1来解释,仅仅有091%的方差不能被PC1解释。第一主成分解释了11个变量92%的方差。

结果解读:通过碎石图可以判定选择的主成分个数为2个。

结果解读:从结果Proportion Var: 058和022可以判定,第一主成分解释了身体测量指标58%的方差,而第二主成分解释了22%,两者总共解释了81%的方差。对于高度变量,两者则共解释了其88%的方差。

旋转是一系列将成分载荷阵变得更容易解释的数学方法,它们尽可能地对成分去噪。旋转方法有两种:使选择的成分保持不相关(正交旋转),和让它们变得相关(斜交旋转)。旋转方法也会依据去噪定义的不同而不同。最流行的正交旋转是方差极大旋转,它试图对载荷阵的列进行去噪,使得每个成分只是由一组有限的变量来解释(即载荷阵每列只有少数几个很大的载荷,其他都是很小的载荷)。 结果列表中列的名字都从PC变成了RC,以表示成分被旋转。

当scores = TRUE时,主成分得分存储在principal()函数返回对象的scores元素中。

如果你的目标是寻求可解释观测变量的潜在隐含变量,可使用因子分析。

EFA的目标是通过发掘隐藏在数据下的一组较少的、更为基本的无法观测的变量,来解释一

组可观测变量的相关性。这些虚拟的、无法观测的变量称作因子。(每个因子被认为可解释多个

观测变量间共有的方差,因此准确来说,它们应该称作公共因子。)

其中 是第i个可观测变量(i = 1…k), 是公共因子(j = 1…p),并且p<k。 是 变量独有的部分(无法被公共因子解释)。 可认为是每个因子对复合而成的可观测变量的贡献值。

碎石检验的前两个特征值(三角形)都在拐角处之上,并且大于基于100次模拟数据矩阵的特征值均值。对于EFA,Kaiser-Harris准则的特征值数大于0,而不是1。

结果解读:PCA结果建议提取一个或者两个成分,EFA建议提取两个因子。

fa(r, nfactors=, nobs=, rotate=, scores=, fm=)

 r是相关系数矩阵或者原始数据矩阵;

 nfactors设定提取的因子数(默认为1);

 nobs是观测数(输入相关系数矩阵时需要填写);

 rotate设定旋转的方法(默认互变异数最小法);

 scores设定是否计算因子得分(默认不计算);

 fm设定因子化方法(默认极小残差法)。

与PCA不同,提取公共因子的方法很多,包括最大似然法(ml)、主轴迭代法(pa)、加权最小二乘法(wls)、广义加权最小二乘法(gls)和最小残差法(minres)。统计学家青睐使用最大似然法,因为它有良好的统计性质。

结果解读:两个因子的Proportion Var分别为046和014,两个因子解释了六个心理学测试60%的方差。

结果解读:阅读和词汇在第一因子上载荷较大,画图、积木图案和迷宫在第二因子上载荷较大,非语言的普通智力测量在两个因子上载荷较为平均,这表明存在一个语言智力因子和一个非语言智力因子。

正交旋转和斜交旋转的不同之处。

对于正交旋转,因子分析的重点在于因子结构矩阵(变量与因子的相关系数),而对于斜交旋转,因子分析会考虑三个矩阵:因子结构矩阵、因子模式矩阵和因子关联矩阵。

因子模式矩阵即标准化的回归系数矩阵。它列出了因子预测变量的权重。因子关联矩阵即因子相关系数矩阵。

图形解读:词汇和阅读在第一个因子(PA1)上载荷较大,而积木图案、画图和迷宫在第二个因子(PA2)上载荷较大。普通智力测验在两个因子上较为平均。

与可精确计算的主成分得分不同,因子得分只是估计得到的。它的估计方法有多种,fa()函数使用的是回归方法。

R包含了其他许多对因子分析非常有用的软件包。FactoMineR包不仅提供了PCA和EFA方法,还包含潜变量模型。它有许多此处我们并没考虑的参数选项,比如数值型变量和类别型变量的使用方法。FAiR包使用遗传算法来估计因子分析模型,它增强了模型参数估计能力,能够处理不等式的约束条件,GPArotation包则提供了许多因子旋转方法。最后,还有nFactors包,它提供了用来判断因子数目的许多复杂方法。

主成分分析

1数据导入

数据结构:对10株玉米进行了生物学性状考察,考察指标有株高,穗位,茎粗,穗长,秃顶,穗粗,穗行数,行粒数。

结果解读:选择2个主成分即可保留样本大量信息。

3提取主成分

结果解读:主成分1可解释44%的方差,主成分2解释了26%的方差,合计解释了70%的方差。

4获取主成分得分

5主成分方程

PC1 = 027 株高 - 004 穗位 + 029 茎粗 - 001 穗长 - 021 秃顶 - 013 穗粗 + 016 穗行数 + 024 行粒数

PC2 = -001 株高 + 036 穗位 - 010 茎粗 + 041 穗长 - 008 秃顶 + 043 穗粗 - 015 穗行数 + 001 行粒数

图形解读:此图反映了变量与主成分的关系,三个蓝点对应的RC2值较高,点上的标号2,4,6对应变量名穗位,穗长,穗粗,说明第2主成分主要解释了这些变量,与这些变量相关性强;黑点分别对应株高,茎粗,穗行数,行粒数,说明第一主成分与这些变量相关性强,第一主成分主要解释的也是这些变量,而5号点秃顶对于两个主成分均没有显示好的相关性。

因子分析

图解:可以看到需要提取4个因子。

2提取因子

结果解读:因子1到4解释了80%的方差。

3获取因子得分

图解:可以看出,因子1和因子2的相关系数为04,行粒数,株高,茎粗,秃顶在因子1的载荷较大,穗长,穗位在因子2上的载荷较大;因子3只有穗行数相关,因子4只有穗粗相关。

参考资料:

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1944290.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-10-29
下一篇2023-10-29

随机推荐

  • 科丝美诗生产哪些大牌?

    1、植村秀,植村秀品牌起名源于其品牌创始人,当今国际世界著名化妆艺术大师植村秀先生。是全球首个风尚主题妆容的先驱,因其创作的概念前卫和用色大胆而被公认为彩妆艺术界大师级人物。2、卡姿兰,卡姿兰,时尚彩妆领导品牌,用国际美学,定义彩妆潮流,用

    2024-04-15
    760300
  • 全套海蓝之谜使用顺序是什么,海蓝之谜具体使用步骤是什么?

    在我们的日常生活中,经常可以看到有人在使用海蓝之谜护肤品,海蓝之谜护肤品的美誉度很高。很多人进了一整套海蓝之谜护肤品,却不知道怎么用。全套海军神秘使用令海蓝之谜全套的使用顺序:洁面后先用醒肤水,再用浓缩精华,再用各种精华。精华的使用顺序:活

    2024-04-15
    26300
  • 海蓝之谜精粹水真假怎么辨别

    海蓝之谜精粹水是一款备受瞩目的护肤品,由于其卓越的保湿和修复功效,成为了众多消费者追捧的对象。市场上也存在着一些假冒伪劣的产品,让消费者很难辨别真假。如何判断海蓝之谜精粹水的真伪呢?下面从几个角度为大家分析。我们可以从包装上入手。正品海蓝之

    2024-04-15
    23400
  • 问:啊阿啊。听说最近 同仁堂出了一款叫素瘦的产品 排毒 养颜 减肥 塑性。好用吗

    你好,减肥方法有多种,其中控制饮食是最主要的。 建议您在减肥的过场中要严格控释饮食,每天要少吃多餐,多吃水果以补充每天所需的维生素,还要控制每天的饮水量,最重要的还要适 量运动巩固减肥成果。减肥是一个艰苦漫长的过程,重在坚持以为同仁堂是老字

    2024-04-15
    11100
  • 妮维雅小蓝罐好用吗 妮维雅小蓝罐的4种用法

    妮维雅小蓝罐是一款非常经典的面霜,久经不衰,这款面霜非常的平价,50元不到,好大一罐,可以用很久,而且这个面霜的用法很多,可以护手,可以当身体乳还可以当宝宝霜。妮维雅小蓝罐好用吗妮维雅的这款面霜应该是平价面霜届的网红了。红也红了很多

    2024-04-15
    16000
  • whoo后适合什么年龄用?whoo后天气丹系列什么功效?

    我们都知道好的肌肤除了天生以外还要靠后天的保养才行,好的肌肤护理离不开好的护肤品,选择一款适合自己的品牌至关重要,那么whoo后适合什么年龄用?whoo后天气丹系列什么功效?whoo后适合什么年龄用拱辰享基础系列基础调理 特点:基础

    2024-04-15
    9300
  • sk2清莹露-神仙水-精华液-乳液-面霜 顺序

      一、化妆水  在洁面之后马上使用化妆水,可以及时有效的补充皮肤缺失的水分。同时,用化妆棉沾满化妆水擦拭整个面部,这样的做法可以起到二次清洁的作用,并调理角质层,使肌肤更好地吸收,为使用保养品作准备。  二、肌底液  首先,大家要明白,肌

    2024-04-15
    15600

发表评论

登录后才能评论
保存