怎样用SPSS进行主成分分析

怎样用SPSS进行主成分分析,第1张

工具/原料

spss200

方法/步骤

先在spss中准备好要处理的数据,然后在菜单栏上执行:analyse--dimension reduction--factor analyse。打开因素分析对话框

我们看到下图就是因素分析的对话框,将要分析的变量都放入variables窗口中

点击descriptives按钮,进入次级对话框,这个对话框可以输出我们想要看到的描述统计量

因为做主成分分析需要我们看一下各个变量之间的相关,对变量间的关系有一个了解,所以需要输出相关,勾选coefficience,点击continue,返回主对话框

回到主对话框,点击ok,开始输出数据处理结果

你看到的这第一个表格就是相关矩阵,现实的是各个变量之间的相关系数,通过相关系数,你可以看到各个变量之间的相关,进而了解各个变量之间的关系

第二个表格显示的主成分分析的过程,我们看到eigenvalues下面的total栏,他的意思就是特征根,他的意义是主成分影响力度的指标,一般以1为标准,如果特征根小于1,说明这个主因素的影响力度还不如一个基本的变量。所以我们只提取特征根大于1的主成分。如图所示,前三个主成分就是大于1的,所以我们只能说有三个主成分。另外,我们看到第一个主成分方差占所有主成分方差的469%,第二个占275%,第三个占150%。这三个累计达到了895%。

  一、主成分分析

  1、简介

  在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

  2、原理

  设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。

  二、主成分分析的基本思想及步骤

  1、基本思想

  主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。

  2、步骤

  Fp=a1iZX1+a2iZX2+……+apiZXp 其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。 A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0 。 进行主成分分析主要步骤如下: 1 指标数据标准化(SPSS软件自动执行); 2 指标之间的相关性判定; 3 确定主成分个数m; 4 主成分Fi表达式; 5 主成分Fi命名;

主成分分析不是一个独立的统计阶段,而是一个初步结果,其应用有两个方面:

一是主成分评价,另一个是主成分回归。这里,我只给您介绍主成分评价。

主成分评价的步骤:

第一步,对原始数据进行无量纲化处理,公式是减均值比上标准差。

如果用统计软件SPSS操作,则点击菜单“分析---描述统计---描述”,把全部变量选进变量框,勾选“将标准化得分另存为变量”,然后点确定,

第二步, 计算特征根、方差贡献率、累计方差贡献率以及主成分载荷矩阵

在SPSS点击菜单“分析--降维--因子分析”,把标准化后的所有变量调入变量框,确定。得表1和表2。表1给出了两个主成分的特征根,分别是5624和1997(例)。

表1 方差分析表

表2(例)    主成分矩阵

第三步,提取主成分

由表1可知,提取了两个主成分,这两个主成分的累计方差贡献率高达95261%,表明提取前两个主成分可以基本反映全部8个指标所具有的信息。

第四步,计量特征向量

特征向量等于主成分矩阵(表2)除以特征值的平方根。表3即计算出的两个特征向量:

表3 特征向量表

第五步, 计算主成分得分

利用这两个公式可以求出两个主成分F1和F2的得分。

第六步,计算综合得分

表9从略。

 

 

主成分分析不需要旋转,因子分析才需要。

 希望能帮上您!刘得意统计服务

主成分分析( Principal components analysis),简称PCA,是最主要的数据降维方法之一。本文从PCA的思想开始,一步一步推导PCA。

对于 , 。我们希望 从 维降到 维,同时希望信息损失最少。比如,从 维降到 :

我们既可以降维到第一主成分轴,也可以降维到第二主成分轴。那么如何找到这这些主成分轴并且选择最优成分轴呢?

直观上,第一主成分轴 优于 第二主成分轴,即具有最大可分性。

下面解决一些基本概念。

欲获得原始数据新的表示空间,最简单的方法是对原始数据进行线性变换(基变换):

其中 是原始样本, 是基向量, 是新表达。

数学表达:

其中 是行向量,表示第 个基, 是一个列向量,表示第 个原始数据记录

当 时即 基的维度 < 数据维度时,可达到降维的目的。即:

以直角坐标系下的点(3,2)为例,欲将点(3,2)变换为新基上的坐标,就是用(3,2)与第一个基做内积运算,作为第一个新的坐标分量,然后用(3,2)与第二个基做内积运算,作为第二个新坐标的分量。

可以稍微推广一下,如果我们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵,然后用“基矩阵”乘以这个矩阵,就得到了所有这些向量在新基下的值。例如(1,1),(2,2),(3,3),想变换到刚才那组基上,则可以这样表示:

回顾一下,我们的目的是希望在降维过程中损失最少,换言之,我们希望投影后的数据尽可能分散开。这种分散程度可以用方差来表达, 方差 越大,数据越分散。

随机变量 表达了 的取值与其数学期望之间的偏离程度。若 较小,意味着 的取值主要集中在期望 也就是 的附近,反之,若 较大,意味着 的取值比较分散。

为了避免过于抽象,我们以一个具体的例子展开。假设我们5个样本数据,分别是 ,将它们表示成矩阵形式:

为了后续处理方便,我们首先将每个字段内所有值都减去字段均值,其结果是将每个字段都变为均值为0

我们看上面的数据,设第一个特征为 ,第二个特征为 , 此时某一个样本可以写作:

且特征 的均值为2, 特征 的均值为3,所以变换后:

协方差 (Covariance)在 概率论 和 统计学 中用于衡量两个变量的总体 误差 。

比如对于二维随机变量 ,特征 除了自身的数学期望和方差,还需要讨论 之间互相关系的数学特征。

当 时,变量 完全独立,这也是我们希望达到的优化目标。

方差 是协方差的一种特殊情况,即当两个变量是相同的情况:

对于 二维 随机变量 ,

对于 n维 随机变量 ,

可见,协方差矩阵是 行 列的对称矩阵,主对角线上是方差,而协对角线上是协方差。

依然我们以一个具体的例子展开,还是这5个样本数据, , ,将它们去中心化后表示成矩阵形式:

那如果有 个样本的话,

对 做一些变换,用 乘以 的转置,并乘上系数1/m:

这不正是协方差矩阵嘛!

现在我们可以说:

回顾一下:

设 的协方差矩阵为 , 的协方差矩阵为 ,且 。

我们要找的 不是别的,而是能让原始协方差矩阵对角化的 。

现在所有焦点都聚焦在了 协方差矩阵对角化 问题上。

由上文知道,协方差矩阵 是一个是对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质:

1)实对称矩阵不同特征值对应的特征向量必然正交。

2)设特征向量 重数为 ,则必然存在 个线性无关的特征向量对应于 ,因此可以将这 个特征向量单位正交化。

由上面两条可知,一个 行 列的实对称矩阵一定可以找到 个单位正交特征向量,设这 个特征向量为 ,我们将其按列组成矩阵:

则对协方差矩阵 有如下结论:

其中 为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。

结合上面的公式:

其中, 为对角矩阵,我们可以得到:

是协方差矩阵 的特征向量单位化后按行排列出的矩阵,其中每一行都是 的一个特征向量。如果设 按照 中特征值的从大到小,将特征向量从上到下排列,则用 的前 行组成的矩阵乘以原始数据矩阵 ,就得到了我们需要的降维后的数据矩阵 。

总结一下PCA的算法步骤:

设有 条 维数据。

1)将原始数据按列组成 行 列矩阵X

2)将 的每一行(代表一个特征)进行零均值化,即减去这一行的均值

3)求出协方差矩阵

4)求出协方差矩阵 的特征值及对应的特征向量

5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 行组成矩阵

6) 即为降维到 维后的数据

这里以上文提到的:

,将它们表示成矩阵形式:

我们用PCA方法将这组二维数据其降到一维。

为了后续处理方便,我们首先将每个特征内所有值都减去字段均值,其结果是将每个字段都变为均值为0

因为这个矩阵的每行已经是零均值,这里我们直接求协方差矩阵:

对于矩阵 :

和 分别是特征值和特征向量,

,则:

为了使这个方程式有非零解,矩阵 的行列式必须是 0

即:

则:

分解得:

找到2个特征值, , ,

when :

即:

则:

和 可以取任意值,我们取归一化的 和 ,即: ,

此时 和

when :

即:

则:

和 可以取任意值,我们取归一化的 和 ,即:

此时 和

所以:

可以验证协方差矩阵C的对角化:

最后我们用 的第一行乘以数据矩阵,就得到了降维后的表示:

降维投影结果如下图:

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1937906.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-10-28
下一篇2023-10-28

随机推荐

  • 一个人的精神崩溃了会怎么样?、

    生活中有精神支柱崩塌的现象,此时会产生末日感,以前建立起来的立身之基,包括信念、才能、健康、亲情、物质、人脉等等,一时间失去了发挥的平台。在新规则下,它们没有上场的机会,眼看着原先不如自己的人不断地与自己擦身而过走上舞台,而自己成了孤独的观

    2024-04-15
    36400
  • 阿富汉的地理环境,国旗,自然条件,人文特色和宗教文化有什么?

      阿富汗概况  国名: 阿富汗 (Afghanistan)  独立日:8月19日(1919年)  阿富汗新年(阿历):3月21日  独立纪念日:8月19日  开斋节:(每年日期不定,随伊斯兰阴历而变)  古尔邦节:(每年日

    2024-04-15
    35800
  • 推荐一款平价的控油爽肤水

    平价的话就妮维雅的蓝水吧。妮维雅的粉水更侧重于保湿,蓝水则侧重于清洁。妮维雅的产品虽然平价,但是性价比还真是不错,产品效果是实打实的,不花哨,对年轻肌肤是足够用的了。此外,要达到控油和收敛毛孔的效果的话,没有酒精是不可能的。妮维雅这两款水基

    2024-04-15
    29900
  • 娇兰蜂姿系列适合什么年龄

    25-40岁。根据查询娇兰官网可知,娇兰帝皇蜂姿系列是娇兰家的明星产品,虽然是油状的,却轻薄好吸收,一点都不油腻,是娇兰专门为轻熟龄专门打造的系列,适合25-40岁之间的肌肤。法国娇兰成立于1828年,是以香水起家的美容护肤品牌,1828年

    2024-04-15
    48800
  • 谁推荐几个最好的眼霜牌子

    推荐:The Body Shop美体小铺接骨木花眼胶15ml(戴妃最爱)(祛除黑眼圈眼袋浮肿)The Body Shop美体小铺VE眼霜15ml(保湿滋润不油腻不起脂肪粒除黑眼圈眼袋浮肿细纹) 原装进口欧莱雅复颜双重提拉眼部

    2024-04-15
    28100
  • 男士洁面乳 怎么用

    1、用温水湿透脸部(冷水无法去污,热水会导致皮肤油腻),把洗面奶挤在手心,轻轻摩擦,打出泡沫,泡沫去污效果更好;2、将泡沫涂在脸上,用手指轻轻按摩脸部,需要特别清洁的地方就用力一点点;3、鼻子两侧可以重点清洁,稍微用力按摩一下,用手指指肚进

    2024-04-15
    28500
  • 妮维雅630和玉兰油多效修护面霜哪个好

    妮维雅630。1、吸收性。妮维雅630适合任何肤质,且温和不刺激,日夜也都适用,玉兰油多效修护面霜吸收性不如妮维雅630。2、成分。玉兰油多效修护面霜美白效果太快太明显说明添加化学成分多,妮维雅630与之相比好些没那么多化学成分。妮维雅面霜

    2024-04-15
    35700

发表评论

登录后才能评论
保存