主成分分析(PCA)

主成分分析(PCA),第1张

        在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。

       因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。

       主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。

        PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。

        如图。我们希望找到某一个维度方向,它可以代表这两个维度的数据。图中列了两个向量方向,u1和u2,那么哪个向量可以更好的代表原始数据集呢?从直观上也可以看出,u1比u2好。

        为什么u1比u2好呢?可以有两种解释,第一种解释是样本点到这个直线的 距离足够近 ,第二种解释是样本点在这个直线上的 投影能尽可能的分开 。

        假设三维空间中有一系列点,这些点分布在一个过原点的斜面上,如果你用自然坐标系x,y,z这三个轴来表示这组数据的话,需要使用三个维度,而事实上,这些点的分布仅仅是在一个二维的平面上,那么,问题出在哪里?如果你再仔细想想,能不能 把x,y,z坐标系旋转一下 ,使数据所在平面与x,y平面重合?这就对了!如果把旋转后的坐标系记为x',y',z',那么这组数据的表示只用x'和y'两个维度表示即可!认为把数据降维后并没有丢弃任何东西,因为这些数据在平面以外的第三个维度的分量都为0,即z'的坐标为0。假设这些数据在z'轴有一个很小的抖动,那么我们仍然用上述的二维表示这些数据,理由是我们可以认为这两个轴x'和y'的信息是数据的主成分,而这些信息对于我们的分析已经足够了,z'轴上的抖动很有可能是噪声。

内积运算:

内积的几何意义:

        注意这里我们专门区分了矢量长度和标量长度,标量长度总是大于等于0,值就是线段的长度;而矢量长度可能为负,其绝对值是线段长度,而符号取决于其方向与标准方向相同或相反。

        A与B的内积等于A到B的投影长度乘以B的模。再进一步,如果我们假设B的模为1,即让|B|=1|B|=1,那么就变成了:

        则内积几何意义:设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度!

(1)什么是基?

        如上图,我们经常用线段终点的点坐标表示向量,例如上面的向量可以表示为(3,2)。但是 只有一个(3,2)本身是不能够精确表示一个向量的 。这里的3实际表示的是向量在x轴上的投影值是3,在y轴上的投影值是2,我们隐式把以x轴和y轴上正方向长度为1的向量为标准,即基为(1,0)和(0,1)。因为它们分别是x和y轴正方向上的单位向量,因此就使得二维平面上点坐标和向量一一对应,非常方便。

         所以,要准确描述向量,首先要确定一组基,然后给出基所在的各个直线上的投影值,进而确定坐标值。

(2)什么是基变换?

      实际上任何两个线性无关的二维向量都可以成为一组基,所谓线性无关在二维平面内可以直观认为是两个不在一条直线上的向量。例如:(1,1)和(-1,1)也可以成为一组基。

        一般来说,我们希望基的模是1,因为从内积的意义可以看到,如果基的模是1,那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了!实际上,对应任何一个向量我们总可以找到其同方向上模为1的向量,只要让两个分量分别除以模就好了。则(1,1)和(-1,1)同方向上模为1的新基为:

(3)用矩阵表示基变换

        将(3,2)变换为新基上的坐标,就是用(3,2)与第一个基做内积运算,作为第一个新的坐标分量,然后用(3,2)与第二个基做内积运算,作为第二个新坐标的分量。实际上,我们可以用矩阵相乘的形式简洁的表示这个变换:

        其中矩阵的两行分别为两个基,乘以原向量,其结果刚好为新基的坐标。可以稍微推广一下,如果我们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵,然后用“基矩阵”乘以这个矩阵,就得到了所有这些向量在新基下的值。例如(1,1),(2,2),(3,3),想变换到刚才那组基上,则可以这样表示:

         一般的,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个基按行组成矩阵A,然后将向量按列组成矩阵B,那么两矩阵的乘积AB就是变换结果,其中AB的第m列为A中第m列变换后的结果 。

        最后,上述分析同时给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说,一个矩阵可以表示一种线性变换。

        上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,而且如果基的数量少于向量本身的维数,则可以达到降维的效果。但是我们还没有回答一个最最关键的问题:如何选择基才是最优的。或者说,如果我们有一组N维向量,现在要将其降到K维(K小于N),那么我们应该如何选择K个基才能最大程度保留原有的信息?看下图:

那么如何选择最优基这个问题被形式化为:寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。

至此我们知道一下几点:

对原始数据进行(线性变换)基变换可以对原始样本给出不同的表示;

基的维度小于数据的维度可以起到降维的效果;

对基变换后的新样本求其方差,选取使其方差最大的基作为最优基。

          对于上面二维降成一维的问题来说,找到那个使得方差最大的方向就可以了。不过对于更高维,还有一个问题需要解决。考虑三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而我们选择第二个投影方向。如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的,因此,应该有其他约束条件。从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。

        至此,我们得到了降维问题的优化目标:将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的K个方差)。

推广到一般情况:

(1)拉格朗日法

(2) 奇异值分解法(SVD)

        在PCA降维过程中,当进行协方差矩阵上求解特征值时,如果面对维度高达1000010000 ,可想而知耗费的计算量程平方级增长。面对这样一个难点,从而引出奇异值分解(SVD),利用SVD不仅可以解出PCA的解,而且无需大的计算量。

PCA算法的主要优点有:

        1、仅仅需要以方差衡量信息量,不受数据集以外的因素影响。

        2、各主成分之间正交,可消除原始数据成分间的相互影响的因素。

        3、计算方法简单,主要运算是特征值分解,易于实现。

PCA算法的主要缺点有:

        1、主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。

        2、方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

PCA是一种广泛应用的降维分析技术,由PCA建立的新坐标空间是原模式空间的线性变换,且用一组正交基依次反映了空间的最大分散特征。PCA和因子分析的差别在于:PCA是用最少个数的主成分占有最大的总方差,而因子分析是用尽可能少的公共因子最优地解释各个变量之间的相互关系。

设有N个观察样本,其特征变量为m个。

Xi=(Xi1,Xi2,…,Xim)T组成样本集。PCA方法及将m个特征变量组合成m个新的成分,这些新成分分别是m个特征变量的线性组合:

Y1=L11X1+L21X2+…+Lm1Xm

Y2=L12X1+L22X2+…+Lm2Xm

……………………………………

Ym=L1mX1+L2mX2+…+LmmXm

如果用矩阵表示,即

Y=LX

为求L矩阵,可先求空间分布中心:

Xc=(Xc1,Xc2,…,Xcm)T

将空间平移即得位移向量

Yj=Xj-Xc

j=1,2,…,N

或表示为矩阵

相态分析与地质找矿

由此可得离散矩阵

S=RRT

可用雅可比(Jacobi)法求出S矩阵的特征值和特征向量。求出的特征向量即是L矩阵的每一列元素。对应于最大特征值的第一特征向量所反映的方差最大,而对应于第二特征值的第二特征向量位于第一特征向量的正交量上,且反映了该正交面上的最大方差。我们可取前P个特征向量构成坐标空间(P≤12),当P=2,3 时,即可得到降维后的显示图像。当选P=2时,可将欲测样本投影到平面上来,用目测法对其进行分类和识别。

数据分析:常用的降维方法之主成分分析

主成分分析(Principal Component Analysis,PCA)也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

  在统计学中,主成分分析是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。

主成分分析的主要作用

  1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。

  2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。

  3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。

  4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。

  5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。

主成分分析法的计算步骤

1、原始指标数据的标准化采集p 维随机向量x = (x1,X2,,Xp)T)n 个样品xi = (xi1,xi2,,xip)T ,i=1,2,…,n,

  n>p,构造样本阵,对样本阵元进行如下标准化变换:

  Z_{ij}=frac{x_{ij}-bar{x}_j}{s_j},i=1,2,,n; j=1,2,,p

  其中bar{x}_j=frac{sum^{n}_{i=1}x_{ij}}{n},s^2_j=frac{sum^n_{i=1}(x_{ij}-bar{x}_j)^2}{n-1},得标准化阵Z。

  2、对标准化阵Z 求相关系数矩阵

  R=left[r_{ij}right]_pxp=frac{Z^T Z}{n-1}

  其中,r_{ij}=frac{sum z_{kj}cdot z_{kj}}{n-1},i,j=1,2,,p 。

  3、解样本相关矩阵R 的特征方程left|R-lambda I_pright|=0得p 个特征根,确定主成分

  按frac{sum^m_{j=1}lambda_j}{sum^p_{j=1}lambda_j}ge 085 确定m 值,使信息的利用率达85%以上,对每个λj, j=1,2,,m, 解方程组Rb = λjb得单位特征向量b^o_j 。

  4、将标准化后的指标变量转换为主成分

  U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,,m

  U1称为第一主成分,U2 称为第二主成分,…,Up 称为第p 主成分。

  5 、对m 个主成分进行综合评价

  对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。

因子分析

 因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。

因子分析法的步骤

  (1)对数据样本进行标准化处理。

  (2)计算样本的相关矩阵R。

  (3)求相关矩阵R的特征根和特征向量。

  (4)根据系统要求的累积贡献率确定主因子的个数。

  (5)计算因子载荷矩阵A。

  (6)确定因子模型。

  (7)根据上述计算结果,对系统进行分析。

以上是小编为大家分享的关于数据分析 常用的降维方法之主成分分析的相关内容,更多信息可以关注环球青藤分享更多干货

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1967521.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-10-31
下一篇2023-10-31

随机推荐

  • 夏天涂防晒霜的正确步骤

    夏天涂防晒霜的正确步骤你知道夏天涂防晒霜的正确步骤是什么样的吗?很多女生刚开始学化妆,还不知道防晒霜应该在什么时候涂。我精心为大家整理了夏天涂防晒霜的正确步骤相关的知识和信息,希望对你有所帮助。

    2024-04-15
    55200
  • 经典哲理句子

      经历过看清身边伪朋友,假爱情,什么患难见真情!明白自己该要什么?看懂了那些是真真假假的"朋友"所以让这些虚伪的人该滚就滚,睁大眼睛。以下是我帮大家整理的哲理句子88句,欢迎阅读,希望能够对大家有所帮助。 1、人生是个

    2024-04-15
    58700
  • 想给妈妈送套化妆品,送什么品牌的化妆品最合适?

    年底啦,有很多小仙女想给自己的妈妈送一套护肤品,特别是有些自己当了妈妈后就更加懂得母亲的辛苦与伟大,加上大部分妈妈们都不懂这些,所以需要你们这些小棉袄给她们买更合适啦1、妈妈们的肤质:超过四十岁后皮肤的会逐步下降,所以妈妈们的肤质基本都是干

    2024-04-15
    56300
  • 性价比高的面霜有哪些?可以具体推荐几款吗?

    娥佩兰薏仁水懒人面霜、SNATIO芳香疗法系列维他命E滋润面霜、Ziaja齐叶雅山羊奶嫩白补水保湿面霜、ANA新款豆乳6合1面霜。1、娥佩兰薏仁水懒人面霜超大一罐,白色不透明啫喱凝胶状,质地很清爽,无矿物油的配方,不像普通面霜那么粘腻,涂开

    2024-04-15
    47900
  • 肌底液和精华液的区别 肌底液和精华液哪个重要

    1 肌底液和精华液的区别主要有以下区别:功效不一样肌底液中含有大量的亲水又亲油的成分,能将护肤品中的水分以及油分分解,从而使其更容易被肌肤吸收,其主要的作用就是帮助打开肌肤的胃口,促进

    2024-04-15
    57400
  • 你在屈臣氏买过哪些好用的东西?

     经常买的,我的美丽日记玻尿酸面膜,资生堂,碧柔,洗面奶,对韩束这个牌子很有好感,同学说很好用,搞活动的时候很便宜,洗发水都很好,最常买的是施华蔻和欧莱雅,搞活动的时候真的真的很便宜,然后最近会员日去被坑了一下,两百积分加六块钱换了两盒面膜

    2024-04-15
    59100
  • 精华露的正确使用步骤

    精华露是日常护肤中不可缺少的一个环节,使用方法正确与否直接影响到其功效。怎样才是精华露的正确使用步骤呢?下面从多个角度介绍。使用精华露之前应该清洁肌肤。洗脸后,用化妆棉或手指将适量精华液涂抹于脸部和颈部。不要用力搓揉皮肤,以免造成刺激。按摩

    2024-04-15
    49800

发表评论

登录后才能评论
保存