主成分分析(PCA)

主成分分析(PCA),第1张

        在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。

       因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。

       主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。

        PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。

        如图。我们希望找到某一个维度方向,它可以代表这两个维度的数据。图中列了两个向量方向,u1和u2,那么哪个向量可以更好的代表原始数据集呢?从直观上也可以看出,u1比u2好。

        为什么u1比u2好呢?可以有两种解释,第一种解释是样本点到这个直线的 距离足够近 ,第二种解释是样本点在这个直线上的 投影能尽可能的分开 。

        假设三维空间中有一系列点,这些点分布在一个过原点的斜面上,如果你用自然坐标系x,y,z这三个轴来表示这组数据的话,需要使用三个维度,而事实上,这些点的分布仅仅是在一个二维的平面上,那么,问题出在哪里?如果你再仔细想想,能不能 把x,y,z坐标系旋转一下 ,使数据所在平面与x,y平面重合?这就对了!如果把旋转后的坐标系记为x',y',z',那么这组数据的表示只用x'和y'两个维度表示即可!认为把数据降维后并没有丢弃任何东西,因为这些数据在平面以外的第三个维度的分量都为0,即z'的坐标为0。假设这些数据在z'轴有一个很小的抖动,那么我们仍然用上述的二维表示这些数据,理由是我们可以认为这两个轴x'和y'的信息是数据的主成分,而这些信息对于我们的分析已经足够了,z'轴上的抖动很有可能是噪声。

内积运算:

内积的几何意义:

        注意这里我们专门区分了矢量长度和标量长度,标量长度总是大于等于0,值就是线段的长度;而矢量长度可能为负,其绝对值是线段长度,而符号取决于其方向与标准方向相同或相反。

        A与B的内积等于A到B的投影长度乘以B的模。再进一步,如果我们假设B的模为1,即让|B|=1|B|=1,那么就变成了:

        则内积几何意义:设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度!

(1)什么是基?

        如上图,我们经常用线段终点的点坐标表示向量,例如上面的向量可以表示为(3,2)。但是 只有一个(3,2)本身是不能够精确表示一个向量的 。这里的3实际表示的是向量在x轴上的投影值是3,在y轴上的投影值是2,我们隐式把以x轴和y轴上正方向长度为1的向量为标准,即基为(1,0)和(0,1)。因为它们分别是x和y轴正方向上的单位向量,因此就使得二维平面上点坐标和向量一一对应,非常方便。

         所以,要准确描述向量,首先要确定一组基,然后给出基所在的各个直线上的投影值,进而确定坐标值。

(2)什么是基变换?

      实际上任何两个线性无关的二维向量都可以成为一组基,所谓线性无关在二维平面内可以直观认为是两个不在一条直线上的向量。例如:(1,1)和(-1,1)也可以成为一组基。

        一般来说,我们希望基的模是1,因为从内积的意义可以看到,如果基的模是1,那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了!实际上,对应任何一个向量我们总可以找到其同方向上模为1的向量,只要让两个分量分别除以模就好了。则(1,1)和(-1,1)同方向上模为1的新基为:

(3)用矩阵表示基变换

        将(3,2)变换为新基上的坐标,就是用(3,2)与第一个基做内积运算,作为第一个新的坐标分量,然后用(3,2)与第二个基做内积运算,作为第二个新坐标的分量。实际上,我们可以用矩阵相乘的形式简洁的表示这个变换:

        其中矩阵的两行分别为两个基,乘以原向量,其结果刚好为新基的坐标。可以稍微推广一下,如果我们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵,然后用“基矩阵”乘以这个矩阵,就得到了所有这些向量在新基下的值。例如(1,1),(2,2),(3,3),想变换到刚才那组基上,则可以这样表示:

         一般的,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个基按行组成矩阵A,然后将向量按列组成矩阵B,那么两矩阵的乘积AB就是变换结果,其中AB的第m列为A中第m列变换后的结果 。

        最后,上述分析同时给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说,一个矩阵可以表示一种线性变换。

        上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,而且如果基的数量少于向量本身的维数,则可以达到降维的效果。但是我们还没有回答一个最最关键的问题:如何选择基才是最优的。或者说,如果我们有一组N维向量,现在要将其降到K维(K小于N),那么我们应该如何选择K个基才能最大程度保留原有的信息?看下图:

那么如何选择最优基这个问题被形式化为:寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。

至此我们知道一下几点:

对原始数据进行(线性变换)基变换可以对原始样本给出不同的表示;

基的维度小于数据的维度可以起到降维的效果;

对基变换后的新样本求其方差,选取使其方差最大的基作为最优基。

          对于上面二维降成一维的问题来说,找到那个使得方差最大的方向就可以了。不过对于更高维,还有一个问题需要解决。考虑三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而我们选择第二个投影方向。如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的,因此,应该有其他约束条件。从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。

        至此,我们得到了降维问题的优化目标:将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的K个方差)。

推广到一般情况:

(1)拉格朗日法

(2) 奇异值分解法(SVD)

        在PCA降维过程中,当进行协方差矩阵上求解特征值时,如果面对维度高达1000010000 ,可想而知耗费的计算量程平方级增长。面对这样一个难点,从而引出奇异值分解(SVD),利用SVD不仅可以解出PCA的解,而且无需大的计算量。

PCA算法的主要优点有:

        1、仅仅需要以方差衡量信息量,不受数据集以外的因素影响。

        2、各主成分之间正交,可消除原始数据成分间的相互影响的因素。

        3、计算方法简单,主要运算是特征值分解,易于实现。

PCA算法的主要缺点有:

        1、主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。

        2、方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

PCA是一种广泛应用的降维分析技术,由PCA建立的新坐标空间是原模式空间的线性变换,且用一组正交基依次反映了空间的最大分散特征。PCA和因子分析的差别在于:PCA是用最少个数的主成分占有最大的总方差,而因子分析是用尽可能少的公共因子最优地解释各个变量之间的相互关系。

设有N个观察样本,其特征变量为m个。

Xi=(Xi1,Xi2,…,Xim)T组成样本集。PCA方法及将m个特征变量组合成m个新的成分,这些新成分分别是m个特征变量的线性组合:

Y1=L11X1+L21X2+…+Lm1Xm

Y2=L12X1+L22X2+…+Lm2Xm

……………………………………

Ym=L1mX1+L2mX2+…+LmmXm

如果用矩阵表示,即

Y=LX

为求L矩阵,可先求空间分布中心:

Xc=(Xc1,Xc2,…,Xcm)T

将空间平移即得位移向量

Yj=Xj-Xc

j=1,2,…,N

或表示为矩阵

相态分析与地质找矿

由此可得离散矩阵

S=RRT

可用雅可比(Jacobi)法求出S矩阵的特征值和特征向量。求出的特征向量即是L矩阵的每一列元素。对应于最大特征值的第一特征向量所反映的方差最大,而对应于第二特征值的第二特征向量位于第一特征向量的正交量上,且反映了该正交面上的最大方差。我们可取前P个特征向量构成坐标空间(P≤12),当P=2,3 时,即可得到降维后的显示图像。当选P=2时,可将欲测样本投影到平面上来,用目测法对其进行分类和识别。

数据分析:常用的降维方法之主成分分析

主成分分析(Principal Component Analysis,PCA)也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

  在统计学中,主成分分析是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。

主成分分析的主要作用

  1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。

  2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。

  3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。

  4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。

  5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。

主成分分析法的计算步骤

1、原始指标数据的标准化采集p 维随机向量x = (x1,X2,,Xp)T)n 个样品xi = (xi1,xi2,,xip)T ,i=1,2,…,n,

  n>p,构造样本阵,对样本阵元进行如下标准化变换:

  Z_{ij}=frac{x_{ij}-bar{x}_j}{s_j},i=1,2,,n; j=1,2,,p

  其中bar{x}_j=frac{sum^{n}_{i=1}x_{ij}}{n},s^2_j=frac{sum^n_{i=1}(x_{ij}-bar{x}_j)^2}{n-1},得标准化阵Z。

  2、对标准化阵Z 求相关系数矩阵

  R=left[r_{ij}right]_pxp=frac{Z^T Z}{n-1}

  其中,r_{ij}=frac{sum z_{kj}cdot z_{kj}}{n-1},i,j=1,2,,p 。

  3、解样本相关矩阵R 的特征方程left|R-lambda I_pright|=0得p 个特征根,确定主成分

  按frac{sum^m_{j=1}lambda_j}{sum^p_{j=1}lambda_j}ge 085 确定m 值,使信息的利用率达85%以上,对每个λj, j=1,2,,m, 解方程组Rb = λjb得单位特征向量b^o_j 。

  4、将标准化后的指标变量转换为主成分

  U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,,m

  U1称为第一主成分,U2 称为第二主成分,…,Up 称为第p 主成分。

  5 、对m 个主成分进行综合评价

  对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。

因子分析

 因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。

因子分析法的步骤

  (1)对数据样本进行标准化处理。

  (2)计算样本的相关矩阵R。

  (3)求相关矩阵R的特征根和特征向量。

  (4)根据系统要求的累积贡献率确定主因子的个数。

  (5)计算因子载荷矩阵A。

  (6)确定因子模型。

  (7)根据上述计算结果,对系统进行分析。

以上是小编为大家分享的关于数据分析 常用的降维方法之主成分分析的相关内容,更多信息可以关注环球青藤分享更多干货

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1967521.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-10-31
下一篇2023-10-31

随机推荐

  • 洗面奶 面膜 爽肤水 精华油 芦荟胶 精华液 面霜 乳液 求早晚使用顺序…

    早晚护肤是每个人都需要的日常,而正确的使用顺序可以让你的肌肤更加健康亮丽。以下是洗面奶、面膜、爽肤水、精华油、芦荟胶、精华液、面霜和乳液的正确使用顺序:要用洗面奶彻底清洁皮肤。将适量洗面奶涂在手心,按摩脸部并轻轻揉搓,再用温水冲洗干净。在清

    2024-04-15
    48400
  • 拜耳和拜尔斯道夫是不是一家公司

    不是同一个,虽然同在德国,但是两个公司差距太大了,也不是子公司的关系。德国拜耳集团(Bayer)是全球最为知名的《财富》世界500强企业之一,全球制药巨头。在材料创新,作物科学及医药保健等众多领域位居业界前列。全球最大的化工和医药保健企业之

    2024-04-15
    46500
  • 全套海蓝之谜使用顺序是什么,海蓝之谜具体使用步骤是什么?

    在我们的日常生活中,经常可以看到有人在使用海蓝之谜护肤品,海蓝之谜护肤品的美誉度很高。很多人进了一整套海蓝之谜护肤品,却不知道怎么用。全套海军神秘使用令海蓝之谜全套的使用顺序:洁面后先用醒肤水,再用浓缩精华,再用各种精华。精华的使用顺序:活

    2024-04-15
    45500
  • 呼吸罗马套盒和欧惠极致套盒哪个更好

    欧惠极致好。1、欧惠极致好用,是欧蕙家最高档次的一个系列,也是做的最出色,销量最多的套盒,而呼吸罗马套盒的销量少,因此是欧惠极致好。2、欧惠是LG的顶级产品,呼吸是LG的一线,比欧惠低一档,伊思的话也就是二线。因此事欧惠极致好。      

    2024-04-15
    28100
  • nivea防晒霜怎么样_妮维雅防晒霜怎么样

    妮维雅nivea防晒霜是一款来自德国的护肤品牌,这款新防晒霜同系列防晒产品区别也会比较明显,下面我们就一起来看看效果好不好!我点评这款和一直卖的妮维雅经典防晒乳有什么区别虽然两款质地很相似,但这一款的防晒指数更高,SPF50 P

    2024-04-15
    20600
  • 护肤套盒的使用顺序

    护肤品大致分为十种,其使用顺序是:①洁面产品②爽肤水③面膜④精华液⑤乳液⑥眼霜⑦眼部精华⑧润唇膏⑨面霜(分为日霜、晚霜)⑩隔离霜(防晒霜)首先是清洁要做好,选择一款合适的洁面产品,有洁面乳、洁面啫喱、洁面泡沫等等,要清楚自己的肤质是干性、中

    2024-04-15
    28700
  • 后天气丹七件套翻译,天气丹7件套装对应中文

    相信大家对于后天气丹这款护肤品再熟悉不过了,它是韩国的一个有名护肤品牌,拥有大量的粉丝,市面上比较常见的就是套装,由于上边标注的是韩文,有些人不知道具体的意思,那么后天气丹七件套翻译是什么?天气丹7件套装对应中文是什么呢?后天气丹套装七件套

    2024-04-15
    29700

发表评论

登录后才能评论
保存