怎样用SPSS进行主成分分析

怎样用SPSS进行主成分分析,第1张

工具/原料

spss200

方法/步骤

先在spss中准备好要处理的数据,然后在菜单栏上执行:analyse--dimension reduction--factor analyse。打开因素分析对话框

我们看到下图就是因素分析的对话框,将要分析的变量都放入variables窗口中

点击descriptives按钮,进入次级对话框,这个对话框可以输出我们想要看到的描述统计量

因为做主成分分析需要我们看一下各个变量之间的相关,对变量间的关系有一个了解,所以需要输出相关,勾选coefficience,点击continue,返回主对话框

回到主对话框,点击ok,开始输出数据处理结果

你看到的这第一个表格就是相关矩阵,现实的是各个变量之间的相关系数,通过相关系数,你可以看到各个变量之间的相关,进而了解各个变量之间的关系

第二个表格显示的主成分分析的过程,我们看到eigenvalues下面的total栏,他的意思就是特征根,他的意义是主成分影响力度的指标,一般以1为标准,如果特征根小于1,说明这个主因素的影响力度还不如一个基本的变量。所以我们只提取特征根大于1的主成分。如图所示,前三个主成分就是大于1的,所以我们只能说有三个主成分。另外,我们看到第一个主成分方差占所有主成分方差的469%,第二个占275%,第三个占150%。这三个累计达到了895%。

  一、主成分分析

  1、简介

  在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

  2、原理

  设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。

  二、主成分分析的基本思想及步骤

  1、基本思想

  主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。

  2、步骤

  Fp=a1iZX1+a2iZX2+……+apiZXp 其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。 A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0 。 进行主成分分析主要步骤如下: 1 指标数据标准化(SPSS软件自动执行); 2 指标之间的相关性判定; 3 确定主成分个数m; 4 主成分Fi表达式; 5 主成分Fi命名;

主成分个数的选取原则首先需要计算各主成分的方差,再求出各自对应的方差贡献率(即对应主成分方差除以总方差), 根据累积贡献率的大小取前面m 个(m<p)主成分,p代表所有的主成分。

主成分分析是最常用的线性降维方法,通过某种线性投影,将高维的数据映射到低维的空间,并期望在所投影的维度上数据的信息量最大(方差最大),以较少的数据维度去反映原数据的特性。

在机器学习的实际问题中,一般都会有几十个指标,高维数据离散度较大,不利于训练出较好的参数,而低维数据则可以更好的训练参数,因此可以通过降维的形式,计算出k列映射数据替代原数据。

主要步骤

1 求样本均值

2求样本协方差矩阵S

3计算协方差矩阵的特征值和特征向量

4将特征值排序

5保留前N个最大的特征值对应的特征向量

6将原始特征转换到上面得到的N个特征向量构建的新空间中

7写出主成分的表达式

注:第五步和第六步,实现了特征压缩。 

主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1组委纳入标准。

主成分分析(PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由现行相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于姜维方法。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理。

统计分析比中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数几个不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的不部分信息。

主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1,。之后对数据进行正交变换,用来由线性相关表示的数据,通过正交变换变成若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和(信息保存)最大的,方差表示在新变量上信息的大小。将新变量一次成为第一主成分,第二主成分等。通过主成分分析,可以利用主成分近似地表示原始数据,这可理解为发现数据的“基本结构”;也可以把数据由少数主成分表示,这可理解为对数据降维。

方差最大的解释。假设有两个变量 ,三个样本点A,B,C。样本分布在由 轴组成的坐标系中,对坐标系进行旋转变换,得到新的坐标轴 ,表示新的变量 。坐标值的平方和 表示样本在变量 上的方差和。主成分分析旨在选取正交变换中方差最大的变量,作为第一主成分,也是是旋转变换中坐标值的平方和最大的轴。注意到旋转变换中变换中样本点到原点距离的平方和 不变,根据勾股定理,坐标值的平方和最大 等价于样本点到 轴的距离平方和 最小。所以,等价地,主成分分析在旋转变换中选取离样本点的距离的平方和最小的轴,作为第一主成分。第二主成分等的选取,在保证与已有坐标轴正交的条件下,类似地进行

假设 是m维随机变量,其均值是

,

协方差矩阵是

考虑到m维随机变量 到m维随机变量 的线性变换

其中

由随机变量的性质可知

总体主成分的定义 给定式(1)所示的线性变换,如果他们满足下列条件

设 是m维随机变量, 是 的协方差矩阵, 的特征值分别是 ,特征值对应的单位特征向量分别是 ,则 的第k主成分是

的第k主成分的方差是

即协方差矩阵 的第k个特征值

首先求 的第一主成分 ,即求系数向量 。第一主成分的 是在 的条件下, 的所有线性变换中使方差达到最大的

求第一主成分就是求解最优化问题

定义拉格朗日函数

其中 是拉格朗日乘子,将拉格朗日函数对 求导,并令其为0,得

因此 是 的特征值, 是对应的单位特征向量。于是目标函数

假设 是 的最大特征值 对应的单位特征向量,显然 与 是最优化问题的解,所以, 构成第一主成分,其方差等于协方差矩阵的最大特征值

接着求 的第二主成分 ,第二主成分的 是在 且 与 不相关条件下, 的所有线性变换中使达到最大

求第二主成分需参求解约束最优化问题

定义拉格朗日函数

其中 对应拉格朗日乘子。对 求偏导,并令其为0,得

将方程左则乘以 有

此式前两项为0,且 ,导出 ,因此式成为

由此, 是 的特征值, 是对应的特征向量,于是目标函数为

假设 是 的第二大特征值 的特征向量,显然 是以上最优化问题的解。于是 构成第二主成分,其方差等于协方差矩阵的第二大特征值,

按照上述方法可以求得第一、第二、直到第m个主成分,其系数向量 分别是 的第一、第二、直到m个单位特征向量, 分别是对应的特征值。并且,第k主成分的方差等于 的第k个特征值。

主成分分析的主要目的是降维,所以一般选择 个主成分(线性无观变量),使问题得以简化,并能保留原有变量的大部分信息。这里所说的信息是指原有信息的方差。

对任意正整数 ,考虑正交线性变换

其中 是q的维向量, 是qm维矩阵,令 的协方差矩阵为

则 的迹 在 时取最大值,其中矩阵 是由正交矩阵A的前q列组成。

这表明,当 的线性变换 在 时,其协方差矩阵 的迹 取得最大值。也就是说,当A取前 的前q个主成分时,能够最大限度地保留原有变量方差的信息。

以上作为选择k个主成分的理论依据。具体选择k的方法,通常利用方差贡献率。

第k主成分 的方差贡献率定义为 的方差与所有方差之和的比记作

k个主成分 的累计方差贡献率定义为k个方差之和和所有方差之和的比

通常取k使得累计方差贡献率达到规定的百分比以上,例如70%~80%。累计方差贡献率反映了主成分保留信息的比例,但它不能反映对某个原有变量 保留信息的比例,这时通常利用k个主成分 对原有变量 的贡献率。

k个主成分 对原有变量 的贡献率为 , 的相关系数的平方,记作

计算公式如下:

其中, 是随机变量 的方差,即协方差矩阵 的对角元素。

在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果,为了消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1

设 为随机变量, 为第i个随机变量, ,令

其中, 分布是随机变量 的均值和方差,这时 就是 的规范化随机变量。

在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。样本主成分也和总体主成分具体相同的性质。

使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵如下操作:

其中

样本协方差矩阵S是中体协方差矩阵 的无偏估计,样本相关矩阵R是总体相关矩阵的无偏估计,S的特征值和特征向量 的特征值和特征向量的无偏估计。

传统的主成分分析通过数据的协方差矩阵或相关矩阵的特征值分解进行,现在常用的方法是通过数据矩阵的奇异值分解进行。下面介绍数据的协方差矩阵或相关矩阵的分解方法

给定样本矩阵 ,利用数据的样本的协方差矩阵或样本相关矩阵的特征值分解进行主成分分析

给定样本矩阵 ,利用数据矩阵奇异值分解进行主成分分析,这里没有假设k个主成分

对于 维实矩阵A,假设其秩为r, ,则可将矩阵A进行截断奇异值分解

式 是 矩阵, 是k阶对角矩阵, 分别由取A的完全奇异分解的矩阵U,V的前k列, 由完全奇异分解的矩阵 的前k个对角元素得到

定义一个新的 矩阵

的每一列均值为0,

即 等于X的协方差矩阵

主成分分析归结于求协方差矩阵 的特征值和对应的单位特征向量。

假设 的截断奇异值分解为 ,那么V 的列向量就是 的单位向量,因此V的列向量就是X的主成分。于是X求X的主成分可以通过 的奇异值来实现

主成分分析与医学应用

10级GIS 班 沈娅男 100154022

在社会经济各方面的问题的研究中,问题的解决常常牵涉到许多层面和变量因素,各因素间往往会存在一定的相关关系。变量因素太多,无疑会增加分析问题的难度和复杂性,因此,我们很容易联想到在相关关系分析的基础上,用尽可能少的新变量来拟合代替原来较多的变量,而尽可能多的保留原来变量所反映的信息,这就是主成分分析方法。

主成分分析方法反映了一种降维处理和分析的思维方法,在解决各种复杂问题时往往能起到意想不到的作用。在这里,我着重想要体现主成分分析在医学研究中的应用。一方面是因为医学与人类的健康密切相关,医学的发展关系到人类最根本的福祉;另一方面是因为医学具备巨大的实践价值,医学的研究成果可以发展生产力从而带动国民经济的发展。近年来,由于统计学的发展和各种技术的进步,对数据进行各种定量分析已被广泛应用于医学研究中。主成分分析方法也被广泛使用。

在这里我选择了一个案例来说明主成分分析在医学研究中的作用。分析的数据来自《中国主要年份儿童保健情况统计(1996~2007)》。

中国主要年份儿童保健情况统计(1996~2777)

本例中有9个变量,分别是年份、出生体重小于两千五百克比重、围产儿童死亡率、新生儿破伤风发病率、新生儿破伤风死亡率、五岁以下儿童中重度营养不良比重、新生儿访视率、三岁以下儿童系统管理率、七岁以下儿童保健管理率。然后按下列步骤计算(利用SPSS 软件):

(1)、计算相关系数矩阵:我利用SPSS 软件求得了除年份以外的另外八个变量之间的相关系数矩阵,结果如下表,从表中可以看出,各变量之间具有一定的相关关系而且有些相关系数还比较大,接近于1,所以本例很适合使用主成分分析。

(2)、计算各成分的特征值、方差贡献率和累积贡献率,结果如下:

由表可知,只有前两个变量因素的特征值大于1,因此选择前两个作为主成分,第一主成分的方差贡献率是76052%,前两个主成分的方差占所有成分方差的95810%,由此可见,前两个主成分已足够代替原来的变量,几乎涵盖原变量的全部信息。

(3)、计算主成分载荷,得到以下的成分矩阵:

成份矩阵

出生体重小于两千五百克比重 围产儿死亡率 新生儿破伤风发病率 新生儿破伤风死亡率

五岁以下儿童中重度营养不良比重 新生儿访视率

三岁以下儿童系统管理率 七岁以下儿童保健管理率 提取方法 :主成份。 a 已提取了 2 个成份。

成份

F 1

F 2

a

从中可以得到两主成分的表达式,即:

F1 = -0134出生体重小于两千五百克比重+0820围产儿死亡率+0992新生儿破伤风发病率+0991新生儿破伤风死亡率+0906五岁以下儿童中重度营养不良比重-0853新生儿访视率-0951三岁以下儿童系统管理率-0988七岁以下儿童保健管理率

同理可得F2的表达式。

(4)、得出结论:在第一主成分中,除了出生体重小于两千五百克比重以外的变量的系数都比较大;在第二主成分中变量出生体重小于两千五百克比重的系数比较大,可以看做是反映变量出生体重小于两千五百克比重的指标。

这样,我们就用这两个主成分概括了所有的指标,描述了中国主要年份儿童的保健情况。

从该案例中可以看出主成分分析具有化繁为简,简明清晰的优点,用最少的成分概括了原来纷杂的变量之间的联系。该统计分析法不失为解决实际应用问题的一个有力工具。

得到的方差百分比就是贡献率,累计百分比就是累计贡献率,成分矩阵用来判定主成分。

贡献率指有效或有用成果数量与资源消耗及占用量之比,即产出量与投入量之比,或所得量与所费量之比。计算公式:贡献率(%)=贡献量(产出量,所得量)/投入量(消耗量,占用量)×100%贡献率也用于分析经济增长中各因素作用大小的程度。

成分矩阵(component matrix)由主成分法得到的因素负荷矩阵。采用同一组被试进行比较时,必须保证两种实验处理之间没有相互影响,同时要平衡位置顺序。

扩展资料

主成分分析的主要作用

1、主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m=1)时,这个Yl仍是使用全部X变量(p个)得到的。

例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。

2、有时可通过因子负荷aij的结论,弄清X变量间的某些关系。

3、多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。

然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。

4、由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。

5、用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。

-贡献率

-成分矩阵

-主成分分析

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1974606.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-10-31
下一篇2023-10-31

随机推荐

  • 哪些护肤品套盒效果好?

    很多妹子都会使用整套的护肤品,很多妹子都会去店里购买一套护肤品,毕竟使用成套的护肤品,会让自己的肌肤变得特别滋润,但是还是有很多品牌的护肤品不知道怎么挑选,不知道哪些好,那么哪些护肤品套盒效果好?希思黎明星保湿套装好用吗?1、保养品推荐1、

    2024-04-15
    53200
  • 抗衰老的套盒贵还是美白套盒贵

    抗衰老的套盒贵还是美白套盒贵?这个问题涉及到两个不同的护肤需求,让我们从多个角度来回答。价格方面。抗衰老的套盒通常包含多种成分和配方,用于改善细纹、提升皮肤弹性等问题。而美白套盒则主要针对肤色不均匀、暗沉等问题。从品牌和产品定位来看,抗衰老

    2024-04-15
    48400
  • 美甲上面装饰金色会显的比较贵气吗?

    可以说现在很多女孩子都是比较爱美的,通常会在自己的身上可劲儿的捯饬,也喜欢做美甲。甚至有的小女孩自己家里都配备了美甲工具,时不常就会给自己做一个漂亮的美甲,出入重要场合的时候也能自信心美满。做美甲的过程中,千万不要小看在指甲上的一些小点缀,

    2024-04-15
    42500
  • 杭州泡芙哪家好吃吗

    杭州泡芙哪家好吃吗?这是一个常见的问题,对喜欢吃甜点的人来说是非常关注的一个话题。杭州有很多家泡芙店,不同的店家会有不同的制作工艺和口味,下面就来介绍一些值得尝试的店家。首先是位于钱江新城的JennyBake,这家店自成立以来就备受好评。他

    2024-04-15
    43200
  • 妮维雅夜间美白保湿精华乳!一款可以在夜间保湿的精华乳

    这款精华乳用起来比较方便,挤压式的设计很干净卫生,而且还含有能防止黑色素的成分妮维雅夜间美白保湿精华乳夏天的时候很多姐妹都被晒黑了,现在是时候要做好美白工作了,偷偷美白才可以超过别的美少女,给大家分享一款我觉得好用的身体精华乳就是妮维雅夜间

    2024-04-15
    38200
  • 资生堂红妍肌活精华露白天可以用吗

    白天可以使用,资生堂红妍肌活精华露在化妆水之后使用,使用的时候按压出适量的精华露,均匀涂抹在脸上,画圈按摩促使精华露渗透到肌肤中,之后使用乳霜,滋润皮肤。资生堂红妍肌活精华露又被人叫做红腰子,是一款具有补水 、保湿、滋润功能的精华露,有效提

    2024-04-15
    40200
  • 大漂亮三周年卖的40块钱的福利套盒是什么

    是一款限时特惠的美容礼盒。根据查询大漂亮官方的介绍得知,这个福利套盒包括两个主要产品:一个是10毫升的小样玫瑰精华液,另一个是一片玫瑰面膜。这两个产品都是大漂亮品牌的明星产品,其中玫瑰精华液富含多种植物精华和玫瑰精油,能够深层滋养肌肤,提升

    2024-04-15
    55700

发表评论

登录后才能评论
保存