这个散点图每个点代表每个原始变量,
x轴值是此变量与第一主成分的相关系数,
y轴值是此变量与第二主成分的相关系数,
所以这个点越接近哪个轴,就说明这个变量跟相应的主成分越相关
主成分分析( Principal components analysis),简称PCA,是最主要的数据降维方法之一。本文从PCA的思想开始,一步一步推导PCA。
对于 , 。我们希望 从 维降到 维,同时希望信息损失最少。比如,从 维降到 :
我们既可以降维到第一主成分轴,也可以降维到第二主成分轴。那么如何找到这这些主成分轴并且选择最优成分轴呢?
直观上,第一主成分轴 优于 第二主成分轴,即具有最大可分性。
下面解决一些基本概念。
欲获得原始数据新的表示空间,最简单的方法是对原始数据进行线性变换(基变换):
其中 是原始样本, 是基向量, 是新表达。
数学表达:
其中 是行向量,表示第 个基, 是一个列向量,表示第 个原始数据记录
当 时即 基的维度 < 数据维度时,可达到降维的目的。即:
以直角坐标系下的点(3,2)为例,欲将点(3,2)变换为新基上的坐标,就是用(3,2)与第一个基做内积运算,作为第一个新的坐标分量,然后用(3,2)与第二个基做内积运算,作为第二个新坐标的分量。
可以稍微推广一下,如果我们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵,然后用“基矩阵”乘以这个矩阵,就得到了所有这些向量在新基下的值。例如(1,1),(2,2),(3,3),想变换到刚才那组基上,则可以这样表示:
回顾一下,我们的目的是希望在降维过程中损失最少,换言之,我们希望投影后的数据尽可能分散开。这种分散程度可以用方差来表达, 方差 越大,数据越分散。
随机变量 表达了 的取值与其数学期望之间的偏离程度。若 较小,意味着 的取值主要集中在期望 也就是 的附近,反之,若 较大,意味着 的取值比较分散。
为了避免过于抽象,我们以一个具体的例子展开。假设我们5个样本数据,分别是 ,将它们表示成矩阵形式:
为了后续处理方便,我们首先将每个字段内所有值都减去字段均值,其结果是将每个字段都变为均值为0
我们看上面的数据,设第一个特征为 ,第二个特征为 , 此时某一个样本可以写作:
且特征 的均值为2, 特征 的均值为3,所以变换后:
协方差 (Covariance)在 概率论 和 统计学 中用于衡量两个变量的总体 误差 。
比如对于二维随机变量 ,特征 除了自身的数学期望和方差,还需要讨论 之间互相关系的数学特征。
当 时,变量 完全独立,这也是我们希望达到的优化目标。
方差 是协方差的一种特殊情况,即当两个变量是相同的情况:
对于 二维 随机变量 ,
对于 n维 随机变量 ,
可见,协方差矩阵是 行 列的对称矩阵,主对角线上是方差,而协对角线上是协方差。
依然我们以一个具体的例子展开,还是这5个样本数据, , ,将它们去中心化后表示成矩阵形式:
那如果有 个样本的话,
对 做一些变换,用 乘以 的转置,并乘上系数1/m:
这不正是协方差矩阵嘛!
现在我们可以说:
回顾一下:
设 的协方差矩阵为 , 的协方差矩阵为 ,且 。
我们要找的 不是别的,而是能让原始协方差矩阵对角化的 。
现在所有焦点都聚焦在了 协方差矩阵对角化 问题上。
由上文知道,协方差矩阵 是一个是对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质:
1)实对称矩阵不同特征值对应的特征向量必然正交。
2)设特征向量 重数为 ,则必然存在 个线性无关的特征向量对应于 ,因此可以将这 个特征向量单位正交化。
由上面两条可知,一个 行 列的实对称矩阵一定可以找到 个单位正交特征向量,设这 个特征向量为 ,我们将其按列组成矩阵:
则对协方差矩阵 有如下结论:
其中 为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。
结合上面的公式:
其中, 为对角矩阵,我们可以得到:
是协方差矩阵 的特征向量单位化后按行排列出的矩阵,其中每一行都是 的一个特征向量。如果设 按照 中特征值的从大到小,将特征向量从上到下排列,则用 的前 行组成的矩阵乘以原始数据矩阵 ,就得到了我们需要的降维后的数据矩阵 。
总结一下PCA的算法步骤:
设有 条 维数据。
1)将原始数据按列组成 行 列矩阵X
2)将 的每一行(代表一个特征)进行零均值化,即减去这一行的均值
3)求出协方差矩阵
4)求出协方差矩阵 的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 行组成矩阵
6) 即为降维到 维后的数据
这里以上文提到的:
,将它们表示成矩阵形式:
我们用PCA方法将这组二维数据其降到一维。
为了后续处理方便,我们首先将每个特征内所有值都减去字段均值,其结果是将每个字段都变为均值为0
因为这个矩阵的每行已经是零均值,这里我们直接求协方差矩阵:
对于矩阵 :
和 分别是特征值和特征向量,
,则:
为了使这个方程式有非零解,矩阵 的行列式必须是 0 :
即:
则:
分解得:
找到2个特征值, , ,
when :
即:
则:
和 可以取任意值,我们取归一化的 和 ,即: ,
此时 和
when :
即:
则:
和 可以取任意值,我们取归一化的 和 ,即:
此时 和
所以:
可以验证协方差矩阵C的对角化:
最后我们用 的第一行乘以数据矩阵,就得到了降维后的表示:
降维投影结果如下图:
基因表达数据分析
主成分分析 ( Princ ipal Component Analysis , PCA ) 是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m 个观察值,形成一个 n ′ m 的数据矩阵, n 通常比较大。对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但是,在一般情况下,并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面, PCA 就是这样一种分析方法。PCA 的目标是寻找 r ( r
降到
。
在进行基因表达数据分析时,一个重要问题是确定每个实验数据是否是独立的,如果每次实验数据之间不是独立的,则会影响基因表达数据分析结果的准确性。对于利用基因芯片 所检测到的基因表达数据,如果用 PCA 方法进行分析,可以将各个基因作为变量,也可以将实验条件作为变量。当将基因作为变量时,通过分析确定一组“主要基因元素”,它们能够很好地说明基因的特征,解释实验现象;当将实验条件作为变量时,通过分析确定一组“主要实验因素”,它们能够很好地刻画实验条件的特征,解释基因的行为。下面着重考虑以实验条件作为变量的 PCA 分析方法。假设将数据的维数从 R N 降到 R 3 ,具体的 PCA 分析步骤如下:
(1) 第一步计算矩阵 X 的样本的协方差矩阵 S :
(2) 第二步计算协方差矩阵S的本征向量 e1,e2,…,eN的本征值
, i = 1,2,…,N 。本征值按大到小排序:
; (3)第三步投影数据到本征矢张成的空间之中,这些本征矢相应的本征值为
。现在数据可以在三维空间中展示为云状的点集。
对于 PCA ,确定新变量的个数 r 是一个两难的问题。我们的目标是减小 r ,如果 r 小,则数据的维数低,便于分析 ,同时也降低了噪声,但可能丢失一些有用的信息。究竟如何确定 r 呢这需要进一步分析每个主元素对信息的贡献。
令
代表第 i 个特征值,定义第 i 个主元素的贡献率为:
(8-45)
前 r 个主成分的累计贡献率为:
(8-46)
贡献率表示所定义的主成分在整个数据分析中承担的主要意义占多大的比重,当取前 r 个主成分来代替原来全部变量时,累计贡献率的大小反应了这种取代的可靠性,累计贡献率越大,可靠性越大;反之,则可靠性越小。一般要求累计贡献率达到 70% 以上。
经过 PCA 分析,一个多变量的复杂问题被简化为低维空间的简单问题。可以利用这种简化方法进行作图,形象地表示和分析复杂问题。在分析基因表达数据时,可以针对基因作图,也可以针对实验条件作图。前者称为 Q 分析,后者称为 R 分析。
表 81 是对酵母 6000 多个基因在 7 个时间点表达数据的 PCA 分析结果,每列数据代表主元素的系数。从表中可以看出,前两个主元素反应了 90% 以上( 769%+135% )的变化,而前三个主元素反应了 95% 以上的变化,因此取前两个主元素即可。 图 86 是对 7 个特征值的图示。
图 87 是前三个主元素系数变化图。第 1 个主元素代表各个基因表达加权平均,除第 1 个时间点外,其它所有系数都为正值( 见图 87(a) )。如果某个基因对应此主元素的值为较大的正数,则基因表达上调,如果此主元素的值为较大的负数,则基因表达下调。第 2 个主元素表示在时间序贯中基因表达的变化,除第 1 个时间点外,其它系数逐个增大( 见图 87(b) )。如果某个基因的表达量随时间不断增加,则此主元素的值为正;如果表达量随时间不断减小,则此主元素的值为负。第 3 个主元素系数变化曲线为抛物线形( 见图 87(c) )。
欢迎分享,转载请注明来源:品搜搜测评网