业务上对特征值维度的要求:
统计学模型:3-15个维度,高维度可能导致维度灾难------理论
机器学习模型:50个维度,速度问题------降维
如何降维:
保留重要的特征,剔除不重要的特征
处理流程:
1经验法
2数据分析法(使用yx相关分析,剔除与y无关的变量)
3经验法+数据分析法(x与x相关分析)
4数据分析法+经验法(逐步回归法)
5主成分分析(因为前四步,已经把重要的变量筛选出来了,不重要的删除了,剩下的变量意义很模糊)
下面使用 bankloan_binning (提取码:78uh)做个案例:
1经验法(通过业务判断age_group是重要的)
2数据分析法
3经验法+数据分析法
下面将使用统计学方法对变量做整合
4数据法+经验法(删除变量)
5主成分分析(若变量个数仍大于15,对整个结果进行压缩)
看spss主成分分析结果图方法。
1、分析数据依次单击spss的分析降维因子分析。
2、降维分析接着,将评价员工能力的五个指标变量添加到变量选项框。
3、变量设置接着,进行分析方法的设置。点击描述分析,在弹出的描述分析设置上,勾选相关性矩阵中的系数。
结果分析
(1)KMO与巴特利特球形检验
由表可以知,巴特利特球形检验的统计量值为3960473,相应的概率P值为0。在显著性水平下,应拒绝原假设,认为相关系数矩阵与单位矩阵存在显著差异。同时KMO值为0844,根据Kaiser给出的度量KMO的标椎可知问卷题项适合做因子分析。
(2)公因子方差
提取值表示每个变量被公因子表达的多少,一般认为,大于07就说明变量被公因子很好地表达。由表可以看出,绝大多数变量的提取值大于085,变量能被公因子很好地表达。
(3)解释总方差
提取方法:主成分分析法
(4)旋转成分矩阵
提取方法:主成分分析法
(5)计算因子得分:因子分析是基于研究各题项之间的内部依赖关系,将一些信息重叠、相关性高的变量指标归结为几个不相关的综合因子的多重统计方法。通过SPSS230得出的成分得分系数矩阵,见表,可得到、、、、公因子的得分表达式为:
其中、、、、公因子分别代表基础技能,创新能力,资源运用,合作精神,创新思维。
KMO检验用于检查变量间的偏相关性 一般认为该值大于09时效果最佳 07以上尚可,06时效果较差
Bartlett's球形检验用于检验相关阵是否是单位阵 P<001说明指标间并非独立,取值是有关系的。可以进行因子分析
根据上图 可以看出一共提取了3个主成分 可是能解释的方差为69958%
软件默认的是提取特征根大于1的主成分 如果加上第四个主成分的话可以解释的变异度为8626%
所以结合专业知识 可以考虑是不是增加一个主成分。
扩展资料:
软件模块实际上就是将以前单独发行的SPSS AnswerTree软件整合进了SPSS平台。笔者几年前在自己的网站上介绍SPSS 11的新功能时,曾经很尖锐地指出SPSS的产品线过于分散,应当把各种功能较单一的小软件,如AnswerTree、Sample Power等整合到SPSS等几个平台上去。
看来SPSS公司也意识到了这一点,而AnswerTree就是在此背景下第一个被彻底整合的产品。
Classification Tree模块基于数据挖掘中发展起来的树结构模型对分类变量或连续变量进行预测,可以方便、快速的对样本进行细分,而不需要用户有太多的统计专业知识。在市场细分和数据挖掘中有较广泛的应用。
已知该模块提供了CHAID、Exhaustive CHAID和C&RT三种算法,在AnswerTree中提供的QUEST算法尚不能肯定是否会被纳入。
为了方便新老用户的使用,Tree模块在操作方式上不再使用AnswerTree中的向导方式,而是SPSS近两年开始采用的交互式选项卡对话框。但是,整个选项卡界面的内容实际上是和原先的向导基本一致的,另外,模型的结果输出仍然是AnswerTree中标准的树形图,这使得AnswerTree的老用户基本上不需要专门的学习就能够懂得如何使用该模块。
由于树结构模型的方法体系和传统的统计方法完全不同,贸然引入可能会引起读者统计方法体系的混乱。为此,本次编写的高级教程并未介绍该模块,而将在高级教程的下一个版本,以及关于市场细分问题的教材中对其加以详细介绍。
参考资料:
提取出来的两个主成分之间是相互独立的,所以他们之间没有包含和被包含的关系。可以把因变量进行标准化后,直接用主成分做自变量,标准化的因变量进行回归。
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。
欢迎分享,转载请注明来源:品搜搜测评网