主成分分析和因子分析有什么区别?

主成分分析和因子分析有什么区别?,第1张

1、原理不同:

成分分析是利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,使得主成分比原始变量具有某些更优越的性能,从而达到简化系统结构,抓住问题实质的目的。

而因子分析更倾向于从数据出发,描述原始变量的相关关系,是由研究原始变量相关矩阵内部的依赖关系出发,把错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。

2、线性表示方向不同:

主成分分析中是把主成分表示成各变量的线性组合,而因子分析是把变量表示成各公因子的线性组合。

3、假设条件不同:

主成分分析不需要有假设条件;而因子分析需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关。 

4、主成分的数量不同

主成分分析的主成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等),实际应用时会根据碎石图提取前几个主要的主成分。而因子分析的因子个数需要分析者指定,指定的因子数量不同而结果也不同。

5、应用范围不同

在实际的应用过程中,主成分分析常被用作达到目的的中间手段,而非完全的一种分析方法,提取出来的主成分无法清晰的解释其代表的含义。而因子分析就是一种完全的分析方法,可确切的得出公共因子。

-因子分析

-主成分分析

一般都是需要通过每个主成分乘以各自权重值得到综合得分的,而不是直接把几个主成分相加,因为这样就默认几个主成分的权重都是一样的了我们通常以各个主成分的方差贡献率作为各自的权重值,也可以通过其他方法计算得到权重值

spss主成分分析法详细步骤:

  1、打开SPSS软件,导入数据后,依次点击分析,降维,因子分析。如图1所示

(图1)

  2、打开因子分析界面之后,把需要进行分析的变量全部选进变量对话框,然后点击右上角的描述。如图2所示

(图2)

  3、勾选原始分析结果、KMO检验对话框,然后点击继续。如图3所示

(图3)

  4、点击抽取,方法里选择主成分再点击碎石图。如图4所示

(图4)

  5、点击旋转,再点击最大方差旋转。如图5所示

(图5)

  6、点击得分,再点击,保存为变量及显示因子得分系数矩阵。如图6所示

(图6)

  7、最后点确定就可以在输出截面看到主成分分析的结果了。如图7所示

(图7)

总结:以上就是spss主成分分析法详细步骤,大家是不是学会了呢?

[COEFF,SCORE,latent,tsquare] = princomp(X)

解释:

X: 就是原始数据,每列是一个变量,每行是一个样本。

coeff:就是那个U转化矩阵

score:最后得出的主成分的值,每一列表示一个主成分(按第一主成分到第n主成分个排列)。

latant:是各主成分对应的特征向量。

tsquare:是Hotelling's T-squared统计量。

主成分分析法: 英文全名 Principal Component Analysis 简称 PCA ,由名字就可以看出来,这是一个挑重点分析的方法。主成分分析 法是通过 恰当 的数学变换 ,使新变量—— 主成分成为原变量 的线性 组合 ,并选 取少数 几个在变差总信息量中 比例较 大的主成分来分析 事物 的一种方法 。 主成分在变差信息量中的比例越大 , 它在综合评价 中的作用就越大。

思想: 整体思想就是化繁为简,抓住问题关键,也就是降维思想。当然,既然是抓住关键,那么自然就是以牺牲精度为代价。

解决问题: 因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。 在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性。

人们希望在进行定量分析过程中,涉及的变量较少,得到的信息量较多。为了尽可能的减少冗余和噪音,一般情况可以从相关变量中选择一个,或者把几个相关变量综合为一个变量作为代表,用少数变量来代表所有变量。

原理: 因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量和相关矩阵的内部结构的关系研究 ,找出影响目标变量某一要素的几个综合指标,使综合指标为原来变量的线性拟合。 这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,使得我们在研究复杂目标变量评估问题时,容易抓住主要矛盾。

形象理解

比如,某学籍数据,有两列 M 和 F ,其中M 列的取值是如果学生为男性,则取值为 1 如果为女性,则取值为 0 。F 列,如果为男性则取值为 0 否则取值为一。 由这两种关系可以知道,这两列数据是强相关的。只要保留一列,就能够完全还原另外一列。  当然,不要局限于数据删除,还有数据转换,删除可以理解为在此方法中的一种方式。

当然,上述情况在真实数据中是不可能出现的。这里只是借此介绍一下这种思维。真实情况中, 我们需要考虑删除哪一列信息可以使得损失最小?或者是通过变换数据就能使得损失信息更小?又如何度量信息的丢失量?原始数据的处理降维有哪些步骤?

坐标示例:

我们来看下面这张图,这是一个椭圆的点阵。椭圆上面有一个长轴和一个短轴。现在我们要表示点阵的主要变化趋势,就可以以长短轴(或者平行于长短轴)构建新的坐标系。在极端的情况下,短轴变成了一个点,那么长轴就能代表这个点阵的趋势和特点。这样,一个二维数据,就变成了一维。

基础知识储备

内积与投影:

内积运算,将两个向量映射为一个实数。其几何意义就是 向量 A ,在向量 B 的投影长度。(下图是以二维向量为例,多维空间依然是如此。)

上式中,B 为单位向基 :

同样以上图 B为例,B向量为(3,2)其表示的其实为在 X 轴的投影值为3 ,在Y轴的投影值 为 2 。这其实加入了一个隐含信息,就是本坐标轴 分别是以 X Y轴为方向的单位向量。这里的 X Y 轴其实就是我们所提到的 基。只不过一般默认为 (1,0)和(0,1)

所以呢,要描述一组向量,首先是要确定一组基。然后求这个向量在这组基中的投影即可。对基的要求是线性无关,并不一定非要正交。但是因为正交基有较好的性质,所以一般情况我们都是用正交基。

基变换

上面我们了解了基的原理。如果同样把(3,2)放到新基里面描述,那就是把向量和新基相乘即可。

如果是在描述中,有多个基呢?那就是与基阵相乘。

如何实现降维

上面的思路,我们都清楚了。那么我们如何通过基变换来降维呢?这里我们来举个例子。假设我们有一个矩阵如下。

为了处理方面,我们现在把每个字段都减去字段平均值,那么就变成了如下所示

表示在坐标上如下图

那么,我们现在想用一维坐标来表示,而且要求尽可能的保留原来的信息,我们需要如何选择方向(基)呢?(二维降一维)

思路就是,希望投影后的值尽可能的分散,避免重合。

协方差

在概率论与统计学中,协方差用于衡量两个随机变量的联合变化程度。而方差则是协方差的一种特殊情况,即变量与自身的协方差。

期望:在概率论和统计学中,一个离散性随机变量的期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。比如骰子的期望值为 1 1/6 +21/6 + …+ 61/6 = 35

协方差公式为:

其中,E(X) = u E(Y) = v

协方差表示的是两个变量的总体的误差 ,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果X 与Y 是统计独立的,那么二者之间的协方差就是0

流程和步骤

第一步:标准化

把输入数据集变量的范围标准化,以使它们中的每一个均可以大致成比例的分析。简单说,就是要把存在较大差异的数据转变为可比较的数据。比如把 0-100 的变量转化为 0-1 的变量。这一步一般可以通过减去平均值,再除以每个变量值的标准差来完成。标准差公式如下

那么常用的标准化指标变量公式可为

第二步:协方差矩阵计算

这一步的目的是:了解输入数据集的变量是如何相对于平均值变化的。或者换句话说,是为了查看它们之间是否存在任何关系。因为有时候,变量间高度相关是因为它们包含大量的信息。因此,为了识别这些相关性,我们进行协方差矩阵计算。

协方差矩阵是p×p对称矩阵(其中p是维数),其所有可能的初始变量与相关联的协方差作为条目。

好了,现在我们知道协方差矩阵只不过是一个表,汇总了所有可能配对的变量间相关性。下面就是计算协方差矩阵的特征向量和特征值,以筛选主要成分。

第三步:计算协方差矩阵的特征向量和特征值,用以识别主成分

特征向量和特征值都是线性代数概念,需要从协方差矩阵计算得出,以便确定数据的主成分。开始解释这些概念之前,让我们首先理解主成分的含义

主成分是由初始变量的线性组合或混合构成的新变量。该组合中新变量(如主成分)之间彼此不相关,且大部分初始变量都被压缩进首个成分中。所以,10维数据会显示10个主成分,但是PCA试图在第一个成分中得到尽可能多的信息,然后在第二个成分中得到尽可能多的剩余信息,以此类推。

例如,假设你有一个10维数据,你最终将得到的内容如下面的屏幕图所示,其中第一个主成分包含原始数据集的大部分信息,而最后一个主成分只包含其中的很少部分。因此,以这种方式组织信息,可以在不丢失太多信息的情况下减少维度,而这需要丢弃携带较少信息的成分。

在这里,方差和信息间的关系是,线所承载的方差越大,数据点沿着它的分散也越大,沿着线的散点越多,它所携带的信息也越多。简单地说,只要把主成分看作是提供最佳角度来观察和评估数据的新轴,这样观测结果之间的差异就会更明显。

协方差矩阵的特征向量实际上是方差最多的轴的方向(或最多的信息),我们称之为主成分。通过特征值的顺序对特征向量进行排序,从最高到最低,你就得到了按重要性排序的主成分。

第四步:特征向量

正如我们在上一步中所看到的,计算特征向量并按其特征值依降序排列,使我们能够按重要性顺序找到主成分。在这个步骤中我们要做的,是选择保留所有成分还是丢弃那些重要性较低的成分(低特征值),并与其他成分形成一个向量矩阵,我们称之为特征向量。

因此,特征向量只是一个矩阵,其中包含我们决定保留的成分的特征向量作为列。这是降维的第一步,因为如果我们选择只保留n个特征向量(分量)中的p个,则最终数据集将只有p维。

第五步:沿主成分轴重新绘制数据

在前面的步骤中,除了标准化之外,你不需要更改任何数据,只需选择主成分,形成特征向量,但输入数据集时要始终与原始轴统一(即初始变量)。

这一步,也是最后一步,目标是使用协方差矩阵的特征向量去形成新特征向量,将数据从原始轴重新定位到由主成分轴中(因此称为主成分分析)。这可以通过将原始数据集的转置乘以特征向量的转置来完成。

优缺点

优点:化繁为简,降低了计算量。

缺点:一定程度上损失了精度。并且只能处理“线性问题”,这是一种线性降维技术、

总结

假设我们拿到了一份数据集,有m个样本,每个样本由n个特征(变量)来描述,那么我们可以按照以下的步骤进行降维:

1、将数据集中的每个样本作为列向量,按列排列构成一个n行m列的矩阵;

2、将矩阵的每一个行向量(每个变量)都减去该行向量的均值,从而使得新行向量的均值为0,得到新的数据集矩阵X;

3、求X的协方差矩阵,并求出协方差矩阵的特征值λ和单位特征向量e;

4、按照特征值从大到小的顺序,将单位特征向量排列成矩阵,得到转换矩阵P,并按PX计算出主成分矩阵;

5、用特征值计算方差贡献率和方差累计贡献率,取方差累计贡献率超过85%的前k个主成分,或者想降至特定的k维,直接取前k个主成分。

操作说明 1 数据标准化 打开数据文件 CJsav ,点击 “分析→描述统计→描述” ,打开描述主 对话框 ,将相关变量选进 “变量”,勾选 “将标准化的分另存为变量(Z)”, 点击确定 ,见下图 ; 2 主成分分析 (1 )点击 “分析→降维→因子分析”,打开因子分析主对话框 ,点击 “描 述”按钮 ,打开 “描述统计”对话框 ,勾选 “原始分析结果”和“KMO 和 Bartlett 的球形度检验” ,点击继续 ,见下图 : (2 )点击 “抽取”按钮 ,打开抽取对话框 , “分子”选择 “主成份” , 其他默认 ,点击继续 ,见下图 : (3 )点击 “得分”按钮 , 默认 ,点击继续 ,见下图 : (4 )其他默认 ,点击 “确定”按钮 ,得到结果。

查看更多

操作说明 1 数据标准化 打开数据文件 CJsav ,点击 “分析→描述统计→描述” ,打开描述主 对话框 ,将相关变量选进 “变量”,勾选 “将标准化的分另存为变量(Z)”, 点击确定 ,见下图 ; 2 主成分分析 (1 )点击 “分析→降维→因子分析”,打开因子分析主对话框 ,点击 “描 述”按钮 ,打开 “描述统计”对话框 ,勾选 “原始分析结果”和“KMO 和 Bartlett 的球形度检验” ,点击继续 ,见下图 : (2 )点击 “抽取”按钮 ,打开抽取对话框 , “分子”选择 “主成份” , 其他默认 ,点击继续 ,见下图 : (3 )点击 “得分”按钮 , 默认 ,点击继续 ,见下图 : (4 )其他默认 ,点击 “确定”按钮 ,得到结果。

查看更多

操作说明 1 数据标准化 打开数据文件 CJsav ,点击 “分析→描述统计→描述” ,打开描述主 对话框 ,将相关变量选进 “变量”,勾选 “将标准化的分另存为变量(Z)”, 点击确定 ,见下图 ; 2 主成分分析 (1 )点击 “分析→降维→因子分析”,打开因子分析主对话框 ,点击 “描 述”按钮 ,打开 “描述统计”对话框 ,勾选 “原始分析结果”和“KMO 和 Bartlett 的球形度检验” ,点击继续 ,见下图 : (2 )点击 “抽取”按钮 ,打开抽取对话框 , “分子”选择 “主成份” , 其他默认 ,点击继续 ,见下图 : (3 )点击 “得分”按钮 , 默认 ,点击继续 ,见下图 : (4 )其他默认 ,点击 “确定”按钮 ,得到结果。

主成分分析PCA是将多指标重新组合成一组新的无相关的几个综合指标,是根据实际需要从中选取尽可能少的综合指标,以达到尽可能多地反应原指标信息的分析方法。由于这种方法的第一主成分在所有的原始变量中方差最大,因而综合评价函数的方差总不会超过第一主成分的方差,所以该方法有一定的缺陷,且提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),所以在变量较少时就不太适合先用主成分筛选变量,这个视数据情况而定

主成分分析实现步骤:

1、原始数据标准化,消除变量量纲不同的影响;

2、计算相关系数矩阵,计算特征值和对应的特征向量;

3、计算贡献率和累计贡献率。

疑问解答:

1计算特征值的含义?

   PCA的本质是对角化协方差矩阵,后对一个n x n的对称协方差矩阵分解求特征值和特征向量,就会产生n个n维正交基,每个正交基对应一个特征值,吧矩阵投影在这n个基上,此时的特征值的横就表示在该基上的投影长度,特征值越大,说明矩阵对应的特征向量上的方差越大,样本点越离散,越容易区分,包含的信息量越多

2主成分系数

  根据主成分系数判断主成分主要依赖的几个变量,根据主要依赖变量总结该主成分(综合指标)代表的性质

3主成分得分

  主成分得分其实就是降维之后数据,可对降维之后的主成分得分进行聚类分析,得到相似的类别群体

主成分分析是一种线性降维算法,也是一种常用的数据预处理方法。

主成分分析法的目标:

是用方差(Variance)来衡量数据的差异性,并将差异性较大的高维数据投影到低维空间中进行表示。绝大多数情况下,我们希望获得两个主成分因子:分别是从数据差异性最大和次大的方向提取出来的,称为PC1(Principal Component 1) 和 PC2(Principal Component 2)。

Scoresxlsx (文末获取文件链接) 包含了约70名学生的全科考试成绩。其中每名学生是一个独立的样本,每门学科的成绩都是一个数据维度(共有13门成绩)。目的是通过分析学生的考试成绩来判断学生的类别(理科、文科生,和体育、艺术特长生)。

特征提取(或称特征抽取)一般做两方面的工作:

1、对原始数据进行某种变换。

2、在变换的过程中使不同的类别(或不同样本)具有相对较好的区分性。

PCA与LDA的局限性:

PCA的局限性:

PCA可以很好的解除线性相关,但是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关。

另外,PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。

各个主成分特征是原始特征的线性组合,其含义具有一定的模糊性,不如原始样本特征的解释性强。方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

LDA的局限性:

传统的线性鉴别分析和主成分分析均只作用于对一维数据即矢量数据进行特证抽取,由此带来诸多不便。假如我们要处理的数据是200×200大小的图像矩阵,那应用这两个方法之前,我们必须把每一个图像转换为一个40000维的矢量。

在此基础上,主成分分析对应的协方差矩阵为一个40000×40000的矩阵,这是一个恐怖的数字,无论是计算协方差矩阵还是计算协方差矩阵的特征向量都将耗费巨大的计算资源。面对上述图像矩阵时,线性鉴别分析也存在一样的难题,而且过之而不及。

线性鉴别分析中类间散布矩阵与类内散布矩阵的大小均为40000×40000,而且还需要计算类内散布矩阵的逆矩阵,计算量的巨大可想而知。

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1940897.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-10-29
下一篇2023-10-29

随机推荐

  • 妮维雅男士洗面奶女生能用吗

    妮维雅男士洗面奶女生能用吗?这是很多女性朋友经常问到的问题。对于这个问题,我的回答是可以用。虽然它是专为男士设计的洗面奶,但其实它也适合女性使用。让我们来看一下妮维雅男士洗面奶的成分和特点。这款洗面奶含有深层清洁因子和温和保湿成分,可以有效

    2024-04-15
    46900
  • 美白精华液哪个牌子好

    1、sk2小银瓶2sk面部淡斑精华露富含光蕴海藻精粹能够使肌肤变得匀净透白,能够淡化肌肤可见的斑点,使肌肤变得亮泽净白光采。是护肤品祛斑排行榜10强之一,这款产品是一款明星护肤产品,价格有点小贵但是效果还是不错的。2、资生堂新透白美肌集光祛

    2024-04-15
    43900
  • 澳蓝纽宝正规吗

    入驻拼多多大概有479个品牌名单,拼多多商品品牌大全--- A:A21、ABC、AK男装、Abckids、AUX奥克斯、奥妙、奥康、安尔乐、安德玛、安琪、安踏、澳乐、澳乐维他、澳佳宝、爱乡亲、爱仕达、爱奇艺、爱得利、爱慕莎、爱护、爱敬、爱法

    2024-04-15
    34200
  • 面膜代加工厂家

    1、济南博利医药生物工程有限公司主营产品:面膜,面膜加工,壳聚糖面膜代加工,械字号面膜加工,玻尿酸原液,霜膏,乳液等。地址:济南市历下区明湖路2号东湖大厦东座702室。成立时间:1998-07-15。2、广州寿龛生物科技有限公司主营产品:膏

    2024-04-15
    46700
  • 补水的精华和美白的精华可以叠加使用吗?

    随着时间的流逝,不经意间就会发现,脸上的细纹又增多了,随之而来的还有毛孔变的粗大等问题。感觉用了很多护肤品,还是不能够掩饰时间在面部留下的痕迹。看过抗皱紧致精华排名榜后,才知道需要一款能够带来紧致肌肤的抗皱紧致精华。但是,哪款精华液好用?真

    2024-04-15
    41800
  • 精油批发市场是真精油吗

    是。没有说精油的真伪之说,市场上卖的精油,主要区别的是精油的纯度,目前市场上出售的,要么说是所谓纯高度进口精油,要么说是原装进口,其实很多外国品牌进到中国市场,80%是进了纯精油到国内稀释后贴包装出售。帮你找了厦门做香料的一大堆公司的资料—

    2024-04-15
    26800
  • 常州小商品批发市场在那里?

    1九龙小商品城公交:255路始发站: 火车站公交中心站 终点站: 三皇庙村委 全线站点: 火车站公交中心站-景福苑-常联报废汽车回收公司-五角场-红梅新村-九龙小商品商场-物流公司-三里庵-五里头村-森源国际-三联桥-沈家塘-糜家塘-伊思达

    2024-04-15
    29000

发表评论

登录后才能评论
保存