1、首先打开SPSSAU,右上角上传数据,点击或者拖拽原始数据文件上传。
2、选择进阶方法->主成分,选择需要分析的题目,拖拽到右侧。点击“开始主成分分析”。
3、可以自行设置好要输出的主成分个数,而不是让软件自动识别。
4、完成以上操作后,即可得到分析结果,结果如下:KMO 和 Bartlett 的检验,及智能分析。
如何用SPSS软件进行主成分分析郭显光摘要文章指出《统计分析软件SPSS/PC+》中主成分分析举例中的一处错误,比较了主成分分析和因子分析的异同,进而指出用SPSS软件不能直接进行主成分分析。作者根据主成分分析和因子分析的关系,提出一种先用SPSS的PC法得出因子载荷阵,然后求出特征向量,建立主成分模型的主成分分析计算方法。关键词主成分分析因子分析因子载荷阵特征向量一、关于主成分分析举例中的一处错误在SPSS的高级统计分析命令中,有因子分析的功能。例如,用FACTOR命令可以进行因子分析,用EXTRACTION子命令可以输出因子模型阵、变量被解释的因子方差、所提取的因子特征根和每个特征根代表的变量X总方差的百分比。在使用该命令时,可以指定提取因子的方法,包括PC(主成分法)、PAF(主轴因子法)等等,也可以指定因子旋转方式。在童忠勇教授主编的《统计分析软件SPSS/PC+》(陕西人民教育出版社,1990年)一书中,第213-215页给出了一个例子:某地区对下属12个县人口调查,其中5个经济变量为:X1(住户数)、X2(学校数)、X3(就业人数)、X4(年收(本文共计5页)
KMO检验用于检查变量间的偏相关性 一般认为该值大于09时效果最佳 07以上尚可,06时效果较差
Bartlett's球形检验用于检验相关阵是否是单位阵 P<001说明指标间并非独立,取值是有关系的。可以进行因子分析
根据上图 可以看出一共提取了3个主成分 可是能解释的方差为69958%
软件默认的是提取特征根大于1的主成分 如果加上第四个主成分的话可以解释的变异度为8626%
所以结合专业知识 可以考虑是不是增加一个主成分。
扩展资料:
软件模块实际上就是将以前单独发行的SPSS AnswerTree软件整合进了SPSS平台。笔者几年前在自己的网站上介绍SPSS 11的新功能时,曾经很尖锐地指出SPSS的产品线过于分散,应当把各种功能较单一的小软件,如AnswerTree、Sample Power等整合到SPSS等几个平台上去。
看来SPSS公司也意识到了这一点,而AnswerTree就是在此背景下第一个被彻底整合的产品。
Classification Tree模块基于数据挖掘中发展起来的树结构模型对分类变量或连续变量进行预测,可以方便、快速的对样本进行细分,而不需要用户有太多的统计专业知识。在市场细分和数据挖掘中有较广泛的应用。
已知该模块提供了CHAID、Exhaustive CHAID和C&RT三种算法,在AnswerTree中提供的QUEST算法尚不能肯定是否会被纳入。
为了方便新老用户的使用,Tree模块在操作方式上不再使用AnswerTree中的向导方式,而是SPSS近两年开始采用的交互式选项卡对话框。但是,整个选项卡界面的内容实际上是和原先的向导基本一致的,另外,模型的结果输出仍然是AnswerTree中标准的树形图,这使得AnswerTree的老用户基本上不需要专门的学习就能够懂得如何使用该模块。
由于树结构模型的方法体系和传统的统计方法完全不同,贸然引入可能会引起读者统计方法体系的混乱。为此,本次编写的高级教程并未介绍该模块,而将在高级教程的下一个版本,以及关于市场细分问题的教材中对其加以详细介绍。
参考资料:
业务上对特征值维度的要求:
统计学模型:3-15个维度,高维度可能导致维度灾难------理论
机器学习模型:50个维度,速度问题------降维
如何降维:
保留重要的特征,剔除不重要的特征
处理流程:
1经验法
2数据分析法(使用yx相关分析,剔除与y无关的变量)
3经验法+数据分析法(x与x相关分析)
4数据分析法+经验法(逐步回归法)
5主成分分析(因为前四步,已经把重要的变量筛选出来了,不重要的删除了,剩下的变量意义很模糊)
下面使用 bankloan_binning (提取码:78uh)做个案例:
1经验法(通过业务判断age_group是重要的)
2数据分析法
3经验法+数据分析法
下面将使用统计学方法对变量做整合
4数据法+经验法(删除变量)
5主成分分析(若变量个数仍大于15,对整个结果进行压缩)
1输入数据。
2点Analyze 下拉菜单,选Data Reduction 下的Factor 。
3打开Factor Analysis后,将数据变量逐个选中进入Variables 对话框中。
4单击主对话框中的Descriptive按扭,打开Factor Analysis: Descriptives子对话框,在Statistics栏中选择Univariate Descriptives项要求输出个变量的均值与标准差,在Correlation Matrix 栏内选择Coefficients项,要求计算相关系数矩阵,单击Continue按钮返回Factor Analysis主对话框。
5单击主对话框中的Extraction 按钮,打开如下图所示的Factor Analysis: Extraction 子对话框。在Method列表中选择默认因子抽取方法——Principal Components,在Analyze 栏中选择默认的Correlation Matrix 项要求从相关系数矩阵出发求解主成分,在Exact 栏中选择Number of Factors;6, 要求显示所有主成分的得分和所能解释的方差。单击Continue按钮返回Factor Analysis主对话框。
6单击主对话框中的OK 按钮,输出结果。
老大,首先,你上传的图我无法看清。
其次,用SPSS软件做主成分分析也没那么复杂,不过你要钻研一番。下面的说明及举例希望可以对你有帮助:
主成分分析法在SPSS中的操作
1、指标数据选取、收集与录入(表1)
2、Analyze →Data Reduction →Factor Analysis,弹出Factor Analysis 对话框:
3、把指标数据选入Variables 框,Descriptives: Correlation Matrix 框组中选中Coefficients,然后点击Continue, 返回Factor Analysis 对话框,单击OK。
注意:SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。
从表3 可知GDP 与工业增加值, 第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系, 与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强, 证明他们存在信息上的重叠。
主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标, 如果特征值小于1, 说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大, 因此一般可以用特征值大于1作为纳入标准。通过表4( 方差分解主成分提取分析) 可知, 提取2个主成分, 即m=2, 从表5( 初始因子载荷矩阵) 可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息; 人均GDP 和农业增加值指标在第二主成分上有较高载荷, 说明第二主成分基本反映了人均GDP 和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息, 所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到, 因为“Component Matrix”是指初始因子载荷矩阵, 每一个载荷量表示主成分与对应变量的相关系数。
用表5( 主成分载荷矩阵) 中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数。将初始因子载荷矩阵中的两列数据输入( 可用复制粘贴的方法) 到数据编辑窗口( 为变量B1、B2) , 然后利用“Transform→Compute Variable”, 在Compute Variable对话框中输入“A1=B1/SQR(722)”[注: 第二主成分SQR后的括号中填1235, 即可得到特征向量A1(见表6)。同理, 可得到特征向量A2。将得到的特征向量与标准化后的数据相乘, 然后就可以得出主成分表达式[注: 因本例只是为了说明如何在SPSS 进行主成分分析, 故在此不对提取的主成分进行命名, 有兴趣的读者可自行命名。
标准化:通过Analyze→Descriptive Statistics→Descriptives 对话框来实现: 弹出Descriptives 对话框后, 把X1~X10 选入Variables 框, 在Save standardized values as variables 前的方框打上钩, 点击“OK”, 经标准化的数据会自动填入数据窗口中, 并以Z开头命名。
以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型, 即用第一主成分F1 中每个指标所对应的系数乘上第一主成分F1 所对应的贡献率再除以所提取两个主成分的两个贡献率之和, 然后加上第二主成分F2 中每个指标所对应的系数乘上第二主成分F2 所对应的贡献率再除以所提取两个主成分的两个贡献率之和, 即可得到综合得分模型:
根据主成分综合模型即可计算综合主成分值, 并对其按综合主成分值进行排序, 即可对各地区进行综合评价比较, 结果见表8。
具体检验还需进一步探讨与学习
结果分析
(1)KMO与巴特利特球形检验
由表可以知,巴特利特球形检验的统计量值为3960473,相应的概率P值为0。在显著性水平下,应拒绝原假设,认为相关系数矩阵与单位矩阵存在显著差异。同时KMO值为0844,根据Kaiser给出的度量KMO的标椎可知问卷题项适合做因子分析。
(2)公因子方差
提取值表示每个变量被公因子表达的多少,一般认为,大于07就说明变量被公因子很好地表达。由表可以看出,绝大多数变量的提取值大于085,变量能被公因子很好地表达。
(3)解释总方差
提取方法:主成分分析法
(4)旋转成分矩阵
提取方法:主成分分析法
(5)计算因子得分:因子分析是基于研究各题项之间的内部依赖关系,将一些信息重叠、相关性高的变量指标归结为几个不相关的综合因子的多重统计方法。通过SPSS230得出的成分得分系数矩阵,见表,可得到、、、、公因子的得分表达式为:
其中、、、、公因子分别代表基础技能,创新能力,资源运用,合作精神,创新思维。
欢迎分享,转载请注明来源:品搜搜测评网