excel数据表可以直接导入matlab的。
打开matlab之后,做file选项里,找import
data,然后选择你存放excel数据的路径,然后选择对应文件,然后点击导入,就ok了。
至于
主成分分析法,木有研究,无能为力。
以下全属个人看法,首先我认为,楼主对主成分分析还没有一个清楚的认知,导致所给的图形就不是最终判断分析的结果。在多元统计分析中,主成分分析是依靠因子分析的结果来进行的。
请饶在下唐突,不过确实,楼主的给因子载荷矩阵图是旋转前的因子载荷阵。在因子分析中,因子旋转是非常关键的一步措施,目的就是要使得每个变量仅在一个公共因子上有较大的载荷度。说白了就是让指标在主要成分上一分为二。
楼主做的分析有5类主成分,11个变量指标,最终的分析结果是5类关键因子,分别对5类主成分起关键作用。按楼上的回答是错误的,怎么样也是5组关键因子……
从未旋转的图很明显发现,虽然想要把指标分两类相当容易,一类是正值,一类是负值。但是,载荷度高意味着数值较大(不是绝对值),楼主可以自己分析一下,你给的载荷阵中的正值从0-07几不等,把这样的一类指标都归结为对主成分起关键作用是不合理的。负值中同样存在这样的道理,把-01—-07都归结为对主成分载荷小的指标也太过武断。正常的旋转过后的因子载荷阵会出现某几个因子载荷在08以上,这是最终要寻找的结果。
所以楼主希望有个正确结果,先做因子旋转吧,把旋转过后的因子载荷矩阵发上来,本人很乐意效劳。
顺便提一下因子旋转的操作……其实都在一起……
在factor
analynis对话框下点击rotation选项,选择因子旋转的方式,一般都是最大方差法,选择varimax,并选择display栏中的rotated
solution复选框,单击continue,返回主界面。ok~
原文:http://tecdatcn/p=2655
此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种方法的有效性。当存在大量预测变量时,PLSR和PCR都是对因变量建模的方法,并且这些预测变量高度相关或甚至共线性。两种方法都将新的预测变量(称为成分)构建为原始预测变量的线性组合,但它们以不同的方式构造这些成分。PCR创建成分来解释预测变量中观察到的变异性,而根本不考虑因变量。另一方面,PLSR确实将因变量考虑在内,因此通常会导致模型能够使用更少的成分来适应因变量。
加载数据
加载包括401个波长的60个汽油样品的光谱强度及其辛烷值的数据集。
使用两个拟合数据
使PLSR模型拟合10个PLS成分和一个因变量。
为了充分拟合数据,可能需要十个成分,但可以使用此拟合的诊断来选择具有更少成分的更简单模型。例如,选择成分数量的一种快速方法是将因变量中解释的方差百分比绘制为成分数量的函数。
在实践中,在选择成分数量时可能需要更加谨慎。例如,交叉验证是一种广泛使用的方法,稍后将在本示例中进行说明。目前,上图显示具有两个成分的PLSR解释了观察到的大部分方差y。计算双组分模型的拟合因变量。
接下来,拟合具有两个主要成分的PCR模型。第一步是X使用该pca函数执行主成分分析,并保留两个主成分。然后,PCR只是这两个成分的因变量的线性回归。当变量具有非常不同的可变性时,通常首先通过其标准偏差来规范每个变量。
从某种意义上说,上图中的比较并不合理 - 通过观察双组分PLSR模型预测因变量的程度来选择成分数(两个),并且没有说明为什么PCR模型应该限制相同数量的成分。然而,使用相同数量的成分,PLSR做得更好。实际上,观察上图中拟合值的水平分布,使用两个分量的PCR几乎不比使用常数模型好。回归的r方值证实了这一点。
比较两种模型的预测能力的另一种方法是在两种情况下将因变量绘制成两个预测变量。
如果不能以交互方式旋转图形,有点难以看到,但上面的PLSR图显示了紧密分散在平面上的点。另一方面,下面的PCR图显示点几乎没有线性关系。
请注意,尽管两个PLS成分是观察到的更好的预测因子,但下图显示它们解释的方差比例比PCR中使用的前两个主成分少。
PCR曲线一致性较高的事实表明,为什么使用两种成分的PCR相对于PLSR在拟合时表现很差。PCR构建成分以便最好地解释X,因此,前两个成分忽略了数据拟合中观察到的重要信息y。
拟合更多成分
随着在PCR中添加更多成分,它必然会更好地拟合原始数据y,这仅仅是因为在某些时候,大多数重要的预测信息X将存在于主要成分中。例如,使用10个成分时,两种方法的残差远小于两个成分的残差。
交叉验证
在预测未来变量的观察结果时,选择成分数量以减少预期误差通常很有用。简单地使用大量成分将很好地拟合当前观察到的数据,但这是一种导致过度拟合的策略。过于拟合当前数据会导致模型不能很好地推广到其他数据,并对预期误差给出过度乐观的估计。
交叉验证是一种更加统计上合理的方法,用于选择PLSR或PCR中的成分数量。它通过不重复使用相同的数据来拟合模型和估计预测误差来避免过度拟合数据。因此,预测误差的估计不会乐观地向下偏差。
pls可以选择通过交叉验证来估计均方预测误差(MSEP),在这种情况下使用10倍CV。
plsreg(X,y,10,'CV',10);
对于PCR,crossval结合用于计算PCR的平方误差之和,可以再次使用10倍交叉验证来估计MSEP。
sum(crossval(@ pcrsse,X,y,'KFold',10),1)/ n;
PLSR的MSEP曲线表明两个或三个成分好。另一方面,PCR需要四个成分才能获得相同的预测精度。
事实上,PCR中的第二个成分会增加模型的预测误差,这表明该成分中包含的预测变量的组合与其没有很强的相关性y。再次,这是因为PCR构建成分来解释X,而不是y。
模型简约
因此,如果PCR需要四个成分来获得与具有三个成分的PLSR相同的预测精度,那么PLSR模型是否更加简约?这取决于您考虑的模型的哪个方面。
PLS权重是定义PLS分量的原始变量的线性组合,即,它们描述了PLSR中的每个分量依赖于原始变量的权重。
类似地,PCA载荷描述了PCR中每个成分依赖于原始变量的强度。
对于PLSR或PCR,可以通过检查每个成分最重要的变量来为每个成分提供有意义的解释。例如,利用这些光谱数据,可以根据汽油中存在的化合物解释强度峰值,然后观察特定成分的权重挑选出少量这些化合物。从这个角度来看,更少的成分更易于解释,并且由于PLSR通常需要更少的成分来充分预测因变量,因此会导致更简约的模型。
另一方面,PLSR和PCR都导致每个原始预测变量的一个回归系数加上截距。从这个意义上讲,两者都不是更简约,因为无论使用多少成分,两种模型都依赖于所有预测变量。更具体地,对于这些数据,两个模型都需要401个光谱强度值以进行预测。
然而,最终目标可能是将原始变量集减少到仍然能够准确预测因变量的较小子集。例如,可以使用PLS权重或PCA载荷来仅选择对每个成分贡献最大的那些变量。如前所示,来自PCR模型拟合的一些成分可主要用于描述预测变量的变化,并且可包括与因变量不强相关的变量的权重。因此,PCR会导致保留预测不必要的变量。
对于本例中使用的数据,PLSR和PCR所需的成分数量之间的差异不是很大,PLS权重和PCA载荷选择了相同的变量。其他数据可能并非如此。
有问题欢迎下方留言!
参考文献
1matlab使用经验模式分解emd 对信号进行去噪
2Matlab使用Hampel滤波去除异常值
3matlab偏最小二乘回归(PLSR)和主成分回归(PCR)
4matlab预测ARMA-GARCH 条件均值和方差模型
5matlab中使用VMD(变分模态分解)
6matlab使用贝叶斯优化的深度学习
7matlab贝叶斯隐马尔可夫hmm模型
8matlab中的隐马尔可夫模型(HMM)实现
9matlab实现MCMC的马尔可夫切换ARMA – GARCH模型
直接利用命令 polyfit(x,yM),这里M是要拟合多项式的次数,返回的结果是多项式系数。
或者也可以直接利用最小二乘法求y=ax+b,找本计算方法一看就能明白了。
主成份分析本质上是一种降维技术,要将多个变量通过旋转在少数维度(最好是2个)上表示出来,并据此分类。但是旋转的方法不同,投射出来的结果也是不一样的,因此你会看到特征向量数值绝对值相同,但符号相反。就好比一种旋转方法将点投影到了X轴之上,而另一种方法恰好投影到了X轴之下。在使用时你只要能确定变量和主成份之间的关系就可以了,解释时用最方便解释得结果。
欢迎分享,转载请注明来源:品搜搜测评网