时间序列定义定义1:时间序列就是一组统计数据,依其发生时间的先后顺序排成的序列。定义2:同一现象在不同时间上的相继观察值排列而成的序列称为时间序列。
它通常用于预测时间序列数据的未来值,如股票价格、气候变化等。时间序列预测通常使用统计学方法来建立时间序列的模型,如ARIMA(自回归移动平均模型)和ETS(指数平滑模型)等。
arima模型全称为差分自回归移动平均模型:arima模型是由博克思和詹金斯于70年代初提出的一著名时间序列预测方法,所以又称为box-jenkins模型、博克思-詹金斯法。
ch4的分子结构模型是甲烷。
甲烷是一种有机化合物,分子式是CH4,分子量为16043。甲烷是最简单的有机物,也是含碳量最小(含氢量最大)的烃。甲烷在自然界的分布很广,是天然气,沼气,坑气等的主要成分,俗称瓦斯。它可用来作为燃料及制造氢气、炭黑、一氧化碳、乙炔、氢氰酸及甲醛等物质的原料。
甲烷主要是作为燃料,如天然气和煤气,广泛应用于民用和工业中。作为化工原料,可以用来生产乙炔 、氢气、合成氨、碳黑、二硫化碳、一氯甲烷、二氯甲烷、三氯甲烷、四氯化碳和氢氰酸等。
宏观经济学在用AD-AS模型说明经济中的萧条、高涨和滞胀状态时,主要是通过说明短期的收入和价格水平的决定来完成的。如下图所示。
从图(a)可以看到,短期的收入和价格水平的决定有两种情况。第一种情况是,AD是总需求曲线, SAS是短期总供给曲线,总需求曲线和短期总供给曲线的交点E决定的产量或收入为y,价格水平为P,二者都处于很低的水平,第一种情况表示经济处于萧条状态。
第二种情况是,当总需求增加,总需求曲线从AD向右移动到'
AD时,短期总供给曲线SAS和新的总需求曲线'AD的交点'E决定的产量或收入为'y,价格水平为'
P,二者都处于很高的水平,第二种情况表示经济处于高涨状态。
现在假定短期总供给曲线由于供给冲击(如石油价格和工资等提高)而向左移动,但总需求曲线不发生变化。在这种情况下,短期收入和价格水平的决定可以用图(b)表示。
在图(b)中,AD是总需求曲线,SAS是短期总供给曲线,两者的交点E决定的产量
或收入为y,价格水平为P。现在由于出现供给冲击,短期总供给曲线向左移动到'SAS,
总需求曲线和新的短期总供给曲线的交点'E决定的产量或收入'y,价格水平为'
P,这个产量低于原来的产量,而价格水平却高于原来的价格水平,这种情况表示经济处于滞胀状态,即经济停滞和通货膨胀结合在一起的状态。
图在高鸿业 宏观部分 498和499页 自己一看就明白 要分~~
主成分分析(Principal Component Analysis,PCA)是一种常用的多元统计分析方法,其优缺点如下:
优点:
降维效果显著:PCA可以将原始数据集的维度降低,从而方便数据的可视化和处理。
减少冗余信息:PCA可以从原始数据中提取出主要的特征,减少冗余信息的影响。
去除噪声:PCA可以通过特征值分解的方法去除噪声,提高数据的准确性和可靠性。
提高计算效率:PCA通过对协方差矩阵进行特征值分解,可以将大规模数据计算转化为少量特征向量的计算,从而提高计算效率。
缺点:
对异常值敏感:PCA对异常值比较敏感,可能会导致提取出的主成分偏离真实情况。
对数据分布的假设:PCA假设数据符合高斯分布,如果数据分布与该假设不符,则可能导致分析结果不准确。
解释性不足:PCA提取的主成分可能难以解释其含义,需要通过额外的分析和解释才能得出结论。
受样本量和变量个数限制:PCA的应用需要考虑样本量和变量个数的限制,如果样本量不足或变量过多,可能会导致提取的主成分不具有代表性。
1、增长型:幼年个体数目最多,老年个体数目最少
2、稳定型:各年龄结构数目比例适中
3、衰退型:老年个体数目偏多,幼年个体数目偏少
增长型种群,指在增长型种群中,老年个体数目少,年幼个体数目多,在图像上呈金字塔型,今后种群密度将不断增长,种内个体越来越多。现阶段大部分种群是稳定型种群,稳定型种群中各年龄结构适中,在一定时间内新出生个体与死亡个体数量相当,种群密度保持相对稳定。衰退型种群多见于濒危物种,此类种群幼年个体数目少,老年个体数目多,死亡率大于出生率,这种情况往往导致恶性循环,种群最终灭绝,但也不排除生存环境突然好转、大量新个体迁入或人工繁殖等一些根本扭转发展趋势的情况。
一、 增长类型
1、指数增长("J"型增长)
指数增长模型的提出者是著名人口学家托马斯·马尔萨斯(TMaithus),他认为种群数量的增长不是简单的相加关系,而是成倍地增长;后来,生物学家查尔斯·罗伯特·达尔文(CRDarwin)通过对大象种群的研究再次确认了这一增长模式。这种客观存在的增长模式表明,所有种群都有爆炸式增长的能力。
指数增长的函数式是指数方程,变量为时间t,常数为种群密度增长的倍数。这一增长模式没有上限,完全的指数增长只存在于没有天敌、食物与空间绝对充足(以至于没有种内斗争)的理想情况,实际生活中,培养皿中刚接种的细菌、入侵生物(例如凤眼莲)、蓝藻爆发时,种群会在相当一段时间内进行指数增长,随后则趋于稳定或大量死亡。
2、逻辑斯蒂增长("S"型增长)
指数增长是一种过于理想的情况,许多生物在指数增长一段时间后,数量会维持稳定,这可以用另一个数学模型进行描述。
试验结果
实例:俄罗斯生态学家GW高斯(GWGaose)曾进行试验,在05ml培养液中放入5个大草履虫,每24h统计一次该种群的种群密度,大草履虫在进行了快速的增长后,稳定在75只(K值)这个数量上。逻辑斯蒂增长模型能更好地指导人为的种群调节。
主成分分析pca图解读,主成分分析散点图解读,主成分分析(PCA)原理详解
1 相关背景
在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。
因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。
2 问题描述
下表1是某些学生的语文、数学、物理、化学成绩统计:
首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。那么一眼就能看出来,数学、物理、化学这三门课的成绩构成了这组数据的主成分(很显然,数学作为第一主成分,因为数学成绩拉的最开)。为什么一眼能看出来?因为坐标轴选对了!下面再看一组学生的数学、物理、化学、语文、历史、英语成绩统计,见表2,还能不能一眼看出来:
数据太多了,以至于看起来有些凌乱!也就是说,无法直接看出这组数据的主成分,因为在坐标系下这组数据分布的很散乱。究其原因,是因为无法拨开遮住肉眼的迷雾~如果把这些数据在相应的空间中表示出来,也许你就能换一个观察角度找出主成分。如下图1所示:
但是,对于更高维的数据,能想象其分布吗?就算能描述分布,如何精确地找到这些主成分的轴?如何衡量你提取的主成分到底占了整个数据的多少信息?所以,我们就要用到主成分分析的处理方法。
3 数据降维
为了说明什么是数据的主成分,先从数据降维说起。数据降维是怎么回事儿?假设三维空间中有一系列点,这些点分布在一个过原点的斜面上,如果你用自然坐标系x,y,z这三个轴来表示这组数据的话,需要使用三个维度,而事实上,这些点的分布仅仅是在一个二维的平面上,那么,问题出在哪里?如果你再仔细想想,能不能把x,y,z坐标系旋转一下,使数据所在平面与x,y平面重合?这就对了!如果把旋转后的坐标系记为x',y',z',那么这组数据的表示只用x'和y'两个维度表示即可!当然了,如果想恢复原来的表示方式,那就得把这两个坐标之间的变换矩阵存下来。这样就能把数据维度降下来了!但是,我们要看到这个过程的本质,如果把这些数据按行或者按列排成一个矩阵,那么这个矩阵的秩就是2!这些数据之间是有相关性的,这些数据构成的过原点的向量的最大线性无关组包含2个向量,这就是为什么一开始就假设平面过原点的原因!那么如果平面不过原点呢?这就是数据中心化的缘故!将坐标原点平移到数据中心,这样原本不相关的数据在这个新坐标系中就有相关性了!有趣的是,三点一定共面,也就是说三维空间中任意三点中心化后都是线性相关的,一般来讲n维空间中的n个点一定能在一个n-1维子空间中分析!
上一段文字中,认为把数据降维后并没有丢弃任何东西,因为这些数据在平面以外的第三个维度的分量都为0。现在,假设这些数据在z'轴有一个很小的抖动,那么我们仍然用上述的二维表示这些数据,理由是我们可以认为这两个轴的信息是数据的主成分,而这些信息对于我们的分析已经足够了,z'轴上的抖动很有可能是噪声,也就是说本来这组数据是有相关性的,噪声的引入,导致了数据不完全相关,但是,这些数据在z'轴上的分布与原点构成的夹角非常小,也就是说在z'轴上有很大的相关性,综合这些考虑,就可以认为数据在x',y' 轴上的投影构成了数据的主成分!
课堂上老师谈到的特征选择的问题,其实就是要剔除的特征主要是和类标签无关的特征。而这里的特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。
PCA的思想是将n维特征映射到k维上(k n),这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。
二、PCA实例
现在假设有一组数据如下:
行代表了样例,列代表特征,这里有10个样例,每个样例两个特征。可以这样认为,有10篇文档,x是10篇文档中 learn 出现的TF-IDF,y是10篇文档中 study 出现的TF-IDF。
第一步,分别求x和y的平均值,然后对于所有的样例,都减去对应的均值。这里x的均值是181,y的均值是191,那么一个样例减去均值后即为(069,049),得到
第二步,求特征协方差矩阵,如果数据是3维,那么协方差矩阵是
这里只有x和y,求解得
对角线上分别是x和y的方差,非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。协方差大于0表示x和y若一个增,另一个也增;小于0表示一个增,一个减。如果x和y是统计独立的,那么二者之间的协方差就是0;但是协方差是0,并不能说明x和y是独立的。协方差绝对值越大,两者对彼此的影响越大,反之越小。协方差是没有单位的量,因此,如果同样的两个变量所采用的量纲发生变化,它们的协方差也会产生树枝上的变化。
第三步,求协方差的特征值和特征向量,得到
上面是两个特征值,下面是对应的特征向量,特征值00490833989对应特征向量为,这里的特征向量都归一化为单位向量。
第四步,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
这里特征值只有两个,我们选择其中最大的那个,这里是128402771,对应的特征向量是(-0677873399, -0735178656)T。
第五步,将样本点投影到选取的特征向量上。假设样例数为m,特征数为n,减去均值后的样本矩阵为DataAdjust(mn),协方差矩阵是nn,选取的k个特征向量组成的矩阵为EigenVectors(nk)。那么投影后的数据FinalData为
FinalData(101) = DataAdjust(102矩阵) x 特征向量(-0677873399, -0735178656)T
得到的结果是
这样,就将原始样例的n维特征变成了k维,这k维就是原始特征在k维上的投影。
上面的数据可以认为是learn和study特征融合为一个新的特征叫做LS特征,该特征基本上代表了这两个特征。上述过程如下图2描述:
正号表示预处理后的样本点,斜着的两条线就分别是正交的特征向量(由于协方差矩阵是对称的,因此其特征向量正交),最后一步的矩阵乘法就是将原始样本点分别往特征向量对应的轴上做投影。
整个PCA过程貌似及其简单,就是求协方差的特征值和特征向量,然后做数据转换。但是有没有觉得很神奇,为什么求协方差的特征向量就是最理想的k维向量?其背后隐藏的意义是什么?整个PCA的意义是什么?
三、PCA推导
先看下面这幅图:
在第一部分中,我们举了一个学生成绩的例子,里面的数据点是六维的,即每个观测值是6维空间中的一个点。我们希望将6维空间用低维空间表示。
先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵,那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。
上图中,u1就是主成分方向,然后在二维空间中取和u1方向正交的方向,就是u2的方向。则n个数据在u1轴的离散程度最大(方差最大),数据在u1上的投影代表了原始数据的绝大部分信息,即使不考虑u2,信息损失也不多。而且,u1、u2不相关。只考虑u1时,二维降为一维。
椭圆的长短轴相差得越大,降维也越有道理。
1 最大方差理论
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在u1上的投影方差较大,在u2上的投影方差较小,那么可认为u2上的投影是由噪声引起的。
因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。
比如我们将下图中的5个点投影到某一维上,这里用一条过原点的直线表示(数据已经中心化):
假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大(也可以说是投影的绝对值之和最大)。
计算投影的方法见下图5:
图中,红色点表示样例,蓝色点表示在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是在u上的投影点,离原点的距离是 x,u (即xTu或者uTx)。
2 最小二乘法
我们使用最小二乘法来确定各个主轴(主成分)的方向。
对给定的一组数据(下面的阐述中,向量一般均指列向量):
其数据中心位于:
数据中心化(将坐标原点移到样本点的中心点):
中心化后的数据在第一主轴u1方向上分布散的最开,也就是说在u1方向上的投影的绝对值之和最大(也可以说方差最大),计算投影的方法上面已经阐述,就是将x与u1做内积,由于只需要求u1的方向,所以设u1也是单位向量。
在这里,也就是最大化下式:
由矩阵代数相关知识可知,可以对绝对值符号项进行平方处理,比较方便。所以进而就是最大化下式:
两个向量做内积,可以转化成矩阵乘法:
所以目标函数可以表示为:
括号里面就是矩阵乘法表示向量内积,由于列向量转置以后是行向量,行向量乘以列向量得到一个数,一个数的转置还是其本身,所以又可以将目标函数化为:
去括号:
又由于u1和i无关,可以拿到求和符外面,上式化简为:
学过矩阵代数的同学可能已经发现了,上式括号里面求和后的结果,就相当于一个大矩阵乘以自身的转置,其中,这个大矩阵的形式如下:
X矩阵的第i列就是xi
于是有:
所以目标函数最终化为:
其中的就是一个二次型,
我们假设的某一特征值为 ,对应的特征向量为 ,有
所以,
是半正定的对称矩阵,即
是半正定阵的二次型,由矩阵代数知识得出,目标函数存在最大值!
下面我们求解最大值、取得最大值时u1的方向这两个问题。
先解决第一个问题,对于向量x的二范数平方为:
同样,目标函数也可以表示成映射后的向量的二范数平方:
把二次型化成一个范数的形式,由于u1取单位向量,最大化目标函数的基本问题也就转化为:对一个矩阵,它对一个向量做变换,变换前后的向量的模长伸缩尺度如何才能最大?我们有矩阵代数中的定理知,向量经矩阵映射前后的向量长度之比的最大值就是这个矩阵的最大奇异值,即:
式中,是矩阵A的最大奇异值(亦是矩阵A的二范数),它等于(或)的最大特征值开平方。
针对本问题来说,是半正定对称阵,也就意味着它的特征值都大于等于0,且不同特征值对应的特征向量是正交的,构成所在空间的一组单位正交基。
再解决第二个问题,对一般情况,设对称阵的n个特征值分别为:
相应的单位特征向量为:
任取一个向量x,用特征向量构成的空间中的这组基表示为:
则:
所以:
针对第二个问题,我们取上式中的,目标函数取得最大值,也就是的最大特征值时,对应的特征向量的方向,就是第一主成分u1的方向!(第二主成分的方向为的第二大特征值对应的特征向量的方向,以此类推)。
证明完毕。
主成分所占整个信息的百分比可用下式计算:
式中分母为所有奇异值平方和,分子为所选取的前k大奇异值平方和。
有些研究工作表明,所选的主轴总长度占所有主轴长度之和的大约85% 即可,其实,这只是一个大体的说法,具体选多少个,要看实际情况而定。
3意义
PCA将n个特征降维到k个,可以用来进行数据压缩,例如100维的向量最后可以用10维来表示,那么压缩率为90%。同样图像处理领域的KL变换使用PCA做图像压缩,人脸检测和匹配。比如如下摘自另一篇博客上的Matlab实验结果:
可见测试样本为人脸的样本的重建误差显然小于非人脸的重建误差。
时间序列分解较常用的模型有:加法模型、乘法模型。
一个时间通常由长期趋势,季节变动,循环波动,不规则波动几部分组成,长期趋势指现象在较长时期内持续发展变化的一种趋向或状态。季节波动是由于季节的变化引起的现象发展水平的规则变动,循环波动指在某段时间内,不具严格规则的周期性连续变动。
不规则波动指由于众多偶然因素对时间序列造成的影响分解模型又分为加法模型和乘法模型。加法指的是时间序分的组成是相互独立的,四个成分都有相同的量纲。乘法模型输出部分和趋势项有相同的量纲,季节项和循环项是比例数,不规则变动项为独立随机变量序列,服从正态分布。
如果季节性引起的变化不是主要的考虑,则季节性调整的数据可能有用。例如,每月的失业数据通常是季节性调整,以便突出由于经济的基本状态而不是季节变化引起的变化。辍学者找工作造成的失业增加是季节性变化的,而经济衰退造成的失业增加是非季节性的。
大多数研究失业数据的经济分析师对非季节性变化更感兴趣。因此,就业数据和许多其他经济系列通常是季节调整数据。季节调整序列包含趋势周期和余项。因此,它们不是“平稳”的,而“下降”或“上升”可能会误导人。
欢迎分享,转载请注明来源:品搜搜测评网