主成分分析是一种线性降维算法,也是一种常用的数据预处理方法。
主成分分析法的目标:
是用方差(Variance)来衡量数据的差异性,并将差异性较大的高维数据投影到低维空间中进行表示。绝大多数情况下,我们希望获得两个主成分因子:分别是从数据差异性最大和次大的方向提取出来的,称为PC1(Principal Component 1) 和 PC2(Principal Component 2)。
Scoresxlsx (文末获取文件链接) 包含了约70名学生的全科考试成绩。其中每名学生是一个独立的样本,每门学科的成绩都是一个数据维度(共有13门成绩)。目的是通过分析学生的考试成绩来判断学生的类别(理科、文科生,和体育、艺术特长生)。
特征提取(或称特征抽取)一般做两方面的工作:
1、对原始数据进行某种变换。
2、在变换的过程中使不同的类别(或不同样本)具有相对较好的区分性。
PCA与LDA的局限性:
PCA的局限性:
PCA可以很好的解除线性相关,但是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关。
另外,PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。
各个主成分特征是原始特征的线性组合,其含义具有一定的模糊性,不如原始样本特征的解释性强。方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。
LDA的局限性:
传统的线性鉴别分析和主成分分析均只作用于对一维数据即矢量数据进行特证抽取,由此带来诸多不便。假如我们要处理的数据是200×200大小的图像矩阵,那应用这两个方法之前,我们必须把每一个图像转换为一个40000维的矢量。
在此基础上,主成分分析对应的协方差矩阵为一个40000×40000的矩阵,这是一个恐怖的数字,无论是计算协方差矩阵还是计算协方差矩阵的特征向量都将耗费巨大的计算资源。面对上述图像矩阵时,线性鉴别分析也存在一样的难题,而且过之而不及。
线性鉴别分析中类间散布矩阵与类内散布矩阵的大小均为40000×40000,而且还需要计算类内散布矩阵的逆矩阵,计算量的巨大可想而知。
主成分分析解释度573%不可以说有效。主成分分析的第一个主成分能够解释总方差的573%,那么可以说这个解释度是相对较大的。这意味着这个主成分能够较好地捕获原始数据的变异情况,解释了原始数据中相当一部分的信息。然而,是否可以说这个解释度是有效的,还需要结合具体的应用场景和数据特点来进行综合评估。如果这个解释度已经足够满足你的分析目的,那么可以认为主成分分析是有效的。但你需要更高的解释度来保留更多的数据信息,需要使用更多的主成分或其他更复杂的主成分分析是一种多变量数据降维的方法,用于发现数据中的主要变化模式。解释度是主成分分析中一个重要的指标,表示主成分能够解释原始数据方差的比例。降维技术。
在SPSS中,主成分分析是通过设置因子分析中的抽取方法实现的,如果设置的抽取方法是主成分,那么计算的就是主成分得分,另外,因子分析和主成分分析尽管原理不同,但是两者综合得分的计算方法是一致的。
层次分析法根据问题的性质和要达到的总目标,将问题分解为不同的组成因素,并按照因素间的相互关联影响以及隶属关系将因素按不同层次聚集组合,
形成一个多层次的分析结构模型,从而最终使问题归结为最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要权值的确定或相对优劣次序的排定。
扩展资料:
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,
使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
-主成分分析法
欢迎分享,转载请注明来源:品搜搜测评网