1、主成分分析(PrincipalComponentAnalysis,PCA),是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
2、在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
3、主成分分析首先是由K皮尔森(KarlPearson)对非随机变量引入的,尔后H霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
3221 技术原理
主成分分析方法(PCA)是常用的数据降维方法,应用于多变量大样本的统计分析当中,大量的统计数据能够提供丰富的信息,利于进行规律探索,但同时增加了其他非主要因素的干扰和问题分析的复杂性,增加了工作量,影响分析结果的精确程度,因此利用主成分分析的降维方法,对所收集的资料作全面的分析,减少分析指标的同时,尽量减少原指标包含信息的损失,把多个变量(指标)化为少数几个可以反映原来多个变量的大部分信息的综合指标。
主成分分析法的建立,假设xi1,xi2,…,xim是i个样品的m个原有变量,是均值为零、标准差为1的标准化变量,概化为p个综合指标F1,F2,…,Fp,则主成分可由原始变量线性表示:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
计算主成分模型中的各个成分载荷。通过对主成分和成分载荷的数据处理产生主成分分析结论。
3222 方法流程
1)首先对数据进行标准化,消除不同量纲对数据的影响,标准化可采用极值法 及标准差标准化法 ,其中s= (图33);
图33 方法流程图
2)根据标准化数据求出方差矩阵;
3)求出共变量矩阵的特征根和特征变量,根据特征根,确定主成分;
4)结合专业知识和各主成分所蕴藏的信息给予恰当的解释,并充分运用其来判断样品的特性。
3223 适用范围
主成分分析不能作为一个模型来描述,它只是通常的变量变换,主成分分析中主成分的个数和变量个数p相同,是将主成分表示为原始变量的线性组合,它是将一组具有相关关系的变量变换为一组互不相关的变量。适用于对具有相关性的多指标进行降维,寻求主要影响因素的统计问题。
一、性质不同
1、主成分分析法性质:通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量。
2、因子分析法性质:研究从变量群中提取共性因子的统计技术。
二、应用不同
1、主成分分析法应用:比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法。
2、因子分析法应用:
(1)消费者习惯和态度研究(U&A)
(2) 品牌形象和特性研究
(3)服务质量调查
(4) 个性测试
(5)形象调查
(6) 市场划分识别
(7)顾客、产品和行为分类
扩展资料:
主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时,根据实际需要,尽量少取几个求和变量,以反映原始变量的信息。
这种统计方法被称为主成分分析或主成分分析,这也是一种处理降维的数学方法。主成分分析(PCA)是试图用一组新的不相关的综合指标来代替原来的指标。
因子分析为社会研究的一种有力工具,但不能确定一项研究中有几个因子。当研究中选择的变量发生变化时,因素的数量也会发生变化。此外,对每个因素的实际含义的解释也不是绝对的。
-主成分分析
-因子分析
1主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在统计分析中也称为变量。因为每个变量都不同程度地反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
2科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息
(1)主成分个数远远少于原有变量的个数
原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。
(2)主成分能够反映原有变量的绝大部分信息
因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有 变量信息的大量丢失,并能够代表原有变量的绝大部分信息
(3)主成分之间应该互不相关
通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题
(4)主成分具有命名解释性
一、对原始数据进行标准化
二、计算相关系数矩阵
三、计算特征值与特征向量
四、计算主成分载荷
五、各主成分的得分
主成分分析有以下几方面的应用:
①对原始指标进行综合:主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。
②探索多个原始指标对个体特征的影响:对于多个原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。
③对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类,可能就会与分类预测算法结合。
我们也可以思考下,每一个数据处理算法都不是孤立存在的,而是相互补充。
层次分析法:
主成分分析和层次分析两者计算权重的不同,AHP层次分析法是一种定性和定量的计算权重的研究方法,采用两两比较的方法,建立矩阵,利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。
主成分分析
(1)方法原理及适用场景
主成分分析是对数据进行浓缩,将多个指标浓缩成为几个彼此不相关的概括性指标(主成分),从而达到降维的目的。主成分分析可同时计算主成分权重及指标权重。
(2)操作步骤
使用SPSSAU进阶方法-主成分分析。
如果计算主成分权重,需要用到方差解释率。具体加权处理方法为:方差解释率除累积方差解释率。
比如本例中,5个指标共提取了2个主成分:
主成分1的权重:45135%/69390%=6505%
主成分2的权重:24254%/69390%=3495%
如果是计算指标权重,可直接查看“线性组合系数及权重结果表格”,SPSSAU自动输出了各指标权重占比结果。其计算原理分为三步:
第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根;
第二:计算综合得分系数,公式为:累积(线性组合系数方差解释率)/累积方差解释率,即上一步中得到的线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率;
第三:计算权重,将综合得分系数进行归一化处理即得到各指标权重值。
主成分分析( Principal components analysis),简称PCA,是最主要的数据降维方法之一。本文从PCA的思想开始,一步一步推导PCA。
对于 , 。我们希望 从 维降到 维,同时希望信息损失最少。比如,从 维降到 :
我们既可以降维到第一主成分轴,也可以降维到第二主成分轴。那么如何找到这这些主成分轴并且选择最优成分轴呢?
直观上,第一主成分轴 优于 第二主成分轴,即具有最大可分性。
下面解决一些基本概念。
欲获得原始数据新的表示空间,最简单的方法是对原始数据进行线性变换(基变换):
其中 是原始样本, 是基向量, 是新表达。
数学表达:
其中 是行向量,表示第 个基, 是一个列向量,表示第 个原始数据记录
当 时即 基的维度 < 数据维度时,可达到降维的目的。即:
以直角坐标系下的点(3,2)为例,欲将点(3,2)变换为新基上的坐标,就是用(3,2)与第一个基做内积运算,作为第一个新的坐标分量,然后用(3,2)与第二个基做内积运算,作为第二个新坐标的分量。
可以稍微推广一下,如果我们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵,然后用“基矩阵”乘以这个矩阵,就得到了所有这些向量在新基下的值。例如(1,1),(2,2),(3,3),想变换到刚才那组基上,则可以这样表示:
回顾一下,我们的目的是希望在降维过程中损失最少,换言之,我们希望投影后的数据尽可能分散开。这种分散程度可以用方差来表达, 方差 越大,数据越分散。
随机变量 表达了 的取值与其数学期望之间的偏离程度。若 较小,意味着 的取值主要集中在期望 也就是 的附近,反之,若 较大,意味着 的取值比较分散。
为了避免过于抽象,我们以一个具体的例子展开。假设我们5个样本数据,分别是 ,将它们表示成矩阵形式:
为了后续处理方便,我们首先将每个字段内所有值都减去字段均值,其结果是将每个字段都变为均值为0
我们看上面的数据,设第一个特征为 ,第二个特征为 , 此时某一个样本可以写作:
且特征 的均值为2, 特征 的均值为3,所以变换后:
协方差 (Covariance)在 概率论 和 统计学 中用于衡量两个变量的总体 误差 。
比如对于二维随机变量 ,特征 除了自身的数学期望和方差,还需要讨论 之间互相关系的数学特征。
当 时,变量 完全独立,这也是我们希望达到的优化目标。
方差 是协方差的一种特殊情况,即当两个变量是相同的情况:
对于 二维 随机变量 ,
对于 n维 随机变量 ,
可见,协方差矩阵是 行 列的对称矩阵,主对角线上是方差,而协对角线上是协方差。
依然我们以一个具体的例子展开,还是这5个样本数据, , ,将它们去中心化后表示成矩阵形式:
那如果有 个样本的话,
对 做一些变换,用 乘以 的转置,并乘上系数1/m:
这不正是协方差矩阵嘛!
现在我们可以说:
回顾一下:
设 的协方差矩阵为 , 的协方差矩阵为 ,且 。
我们要找的 不是别的,而是能让原始协方差矩阵对角化的 。
现在所有焦点都聚焦在了 协方差矩阵对角化 问题上。
由上文知道,协方差矩阵 是一个是对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质:
1)实对称矩阵不同特征值对应的特征向量必然正交。
2)设特征向量 重数为 ,则必然存在 个线性无关的特征向量对应于 ,因此可以将这 个特征向量单位正交化。
由上面两条可知,一个 行 列的实对称矩阵一定可以找到 个单位正交特征向量,设这 个特征向量为 ,我们将其按列组成矩阵:
则对协方差矩阵 有如下结论:
其中 为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。
结合上面的公式:
其中, 为对角矩阵,我们可以得到:
是协方差矩阵 的特征向量单位化后按行排列出的矩阵,其中每一行都是 的一个特征向量。如果设 按照 中特征值的从大到小,将特征向量从上到下排列,则用 的前 行组成的矩阵乘以原始数据矩阵 ,就得到了我们需要的降维后的数据矩阵 。
总结一下PCA的算法步骤:
设有 条 维数据。
1)将原始数据按列组成 行 列矩阵X
2)将 的每一行(代表一个特征)进行零均值化,即减去这一行的均值
3)求出协方差矩阵
4)求出协方差矩阵 的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 行组成矩阵
6) 即为降维到 维后的数据
这里以上文提到的:
,将它们表示成矩阵形式:
我们用PCA方法将这组二维数据其降到一维。
为了后续处理方便,我们首先将每个特征内所有值都减去字段均值,其结果是将每个字段都变为均值为0
因为这个矩阵的每行已经是零均值,这里我们直接求协方差矩阵:
对于矩阵 :
和 分别是特征值和特征向量,
,则:
为了使这个方程式有非零解,矩阵 的行列式必须是 0 :
即:
则:
分解得:
找到2个特征值, , ,
when :
即:
则:
和 可以取任意值,我们取归一化的 和 ,即: ,
此时 和
when :
即:
则:
和 可以取任意值,我们取归一化的 和 ,即:
此时 和
所以:
可以验证协方差矩阵C的对角化:
最后我们用 的第一行乘以数据矩阵,就得到了降维后的表示:
降维投影结果如下图:
欢迎分享,转载请注明来源:品搜搜测评网