一、二者在SPSS中的实现
(一)、因子分析在SPSS中的实现
进行因子分析主要步骤如下:
1 指标数据标准化(SPSS软件自动执行);
2 指标之间的相关性判定;
3 确定因子个数;
4 综合得分表达式;
5 各因子Fi命名;
例子:对沿海10个省市经济综合指标进行因子分析
(一)指标选取原则
本文所选取的数据来自《中国统计年鉴2003》中2002年的统计数据,在沿海10省市经济状况主要指标体系中选取了10个指标:
X1——GDP X2——人均GDP
X3——农业增加值 X4——工业增加值
X5——第三产业增加值 X6——固定资产投资
X7——基本建设投资 X8——国内生产总值占全国比重(%)
X9——海关出口总额 X10——地方财政收入
图1:沿海10个省市经济数据
(二)因子分析在SPSS中的具体操作步骤
运用SPSS统计分析软件Factor过程[2]对沿海10个省市经济综合指标进行因子分析。具体操作步骤如下:
1 Analyzeà Data Reductionà Factor Analysis,弹出Factor Analysis对话框
2 把X1~X10选入Variables框
3 Descriptives: Correlation Matrix框组中选中Coefficients等选项,然后点击Continue,返回Factor Analysis对话框
4 点击“OK”
图2:Factor Analyze对话框与Descriptives子对话框
SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。我们可以通过AnalyzeàDescriptive Statisticsà Descriptives对话框来实现:弹出Descriptives对话框后,把X1~X10选入Variables框,在Save standardized values as variables前的方框打上钩,点击“OK”,经标准化的数据会自动填入数据窗口中,并以Z开头命名。Descriptives对话框
图3:相关系数矩阵
从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。
通过图表4(方差分解因子提取分析)可知,提取2个因子,因为方差累积贡献率为84551%,接近85%。从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一因子上有较高载荷,说明第一因子基本反映了这些指标的信息;人均GDP和农业增加值指标在第二因子上有较高载荷,说明第二因子基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个因子是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。此时,因子得分已经在窗口中自动给出。此处还可以选择对话框中图表2中的Rotation,选择不同的旋转方式,一般较为多用的是最大方差旋转。
多数分析法的原则是什么
多数分析法也是多元分析方法,包括3类:
多元方差分析、多元回归分析和协方差分析,称为线性模型方法,用以研究确定的自变量与因变量之间的关系;判别函数分析和聚类分析,用以研究对事物的分类;主成分分析、典型相关和因素分析,研究如何用较少的综合因素代替为数较多的原始变量。
多元方差是把总变异按照其来源分为多个部分,从而检验各个因素对因变量的影响以及各因素间交互作用的统计方法。
判别函数是判定个体所属类别的统计方法。其基本原理是:根据两个或多个已知类别的样本观测资料确定一个或几个线性判别函数和判别指标,然后用该判别函数依据判别指标来判定另一个个体属于哪一类。
偏最小二乘法 最小二乘法是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配。 用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小。 通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。
偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析
与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1)能够在自变量存在严重多重相关性的条件下进行回归建模;(2)允许在样本点个数少于变量个数的条件下进行回归建模;(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。
多重相关性的诊断
1 经验式诊断方法
1、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
2、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y的简单相关系数符号相反。
3、对重要自变量的回归系数进行t检验,其结果不显著。
特别典型的是,当F检验能在高精度下通过,测定系数R2的值亦很大,但自变量的t检验却全都不显著,这时,多重相关性的可能性将很大。
4、如果增加(或删除)一个变量,或者增加(或删除)一个观测值,回归系数的估计值发生了很大的变化。
5、重要自变量的回归系数置信区间明显过大。
6、在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
7、对于一般的观测数据,如果样本点的个数过少,样本数据中的多重相关性是经常存在的。
但是,采用经验式方法诊断自变量系统中是否确实存在多重相关性,并不十分可靠,另一种较正规的方法是利用统计检验(回归分析),检查每一个自变量相对其它自变量是否存在线性关系。
2 方差膨胀因子
最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量xj的方差膨胀因子记为(VIF)j,它的计算方法为
(4-5) (VIF)j =(1-R j2)-1
式中,R j2是以xj为因变量时对其它自变量回归的复测定系数。
所有xj变量中最大的(VIF)j通常被用来作为测量多重相关性的指标。一般认为,如果最大的(VIF)j超过10,常常表示多重相关性将严重影响最小二乘的估计值。
(VIF)j被称为方差膨胀因子的原因,是由于它还可以度量回归系数的估计方差与自变量线性无关时相比,增加了多少。
不妨假设x1,x2,…,xp均是标准化变量。采用最小二乘法得到回归系数向量B,它的精度是用它的方差来测量的。B的协方差矩阵为
Cov(B)= σ2 (X'X)-1
式中,σ2是误差项方差。所以,对于回归系数b j,有
Var(b j)= σ2cjj
cjj是(X'X)-1矩阵中第j个对角元素。可以证明,
cjj =(VIF)j
岭回归分析
1 岭回归估计量
岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。
根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。
在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为
rXXb=ryX
式中,rXX是X的相关系数矩阵,ryX是y与所有自变量的相关系数向量。
岭回归估计量是通过在正规方程中引入有偏常数c(c≥0)而求得的。它的正规方程为+
(4-8) (rXX+ cI) bR=ryX
所以,在岭回归分析中,标准化回归系数为
(4-9) bR =(rXX+ cI)-1 ryX
2 岭回归估计量的性质
(1)岭回归系数是一般最小二乘准则下回归系数的线性组合,即
(4-10) bR =(I+ crXX-1)-1b
(2)记β是总体参数的理论值。当β≠0时,可以证明一定存在一个正数c0,使得当0< c< c0时,一致地有
(4-11) E|| bR -β||2≤ E|| b -β||2
(3)岭回归估计量的绝对值常比普通最小二乘估计量的绝对值小,即
(4-12) || bR ||<|| b ||
岭回归估计量的质量取决于偏倚系数c的选取。c的选取不宜过大,因为
E(bR)=(I+ crXX-1)-1 E (b)=(I+ crXX-1)-1β
关于偏倚系数c的选取尚没有正规的决策准则,目前主要以岭迹和方差膨胀因子为依据。岭迹是指p-1个岭回归系数估计量对不同的c值所描绘的曲线(c值一般在0~1之间)。在通过检查岭迹和方差膨胀因子来选择c值时,其判断方法是选择一个尽可能小的c值,在这个较小的c值上,岭迹中的回归系数已变得比较稳定,并且方差膨胀因子也变得足够小。
从理论上,最佳的c值是存在的,它可以使估计量的偏差和方差的组合效应达到一个最佳水准。然而,困难却在于c的最优值对不同的应用而有所不同,对其选择还只能凭经验判断。
其他补救方法简介
最常见的一种思路是设法去掉不太重要的相关性变量。由于变量间多重相关性的形式十分复杂,而且还缺乏十分可靠的检验方法,删除部分多重相关变量的做法常导致增大模型的解释误差,将本应保留的系统信息舍弃,使得接受一个错误结论的可能和做出错误决策的风险都不断增长。另一方面,在一些经济模型中,从经济理论上要求一些重要的解释变量必须被包括在模型中,而这些变量又存在多重相关性。这时采用剔除部分相关变量的做法就不符合实际工作的要求。
另一种补救的办法是增加样本容量。然而,在实际工作中,由于时间、经费以及客观条件的限制,增大样本容量的方法常常是不可行的。
此外,还可以采用变量转换的方式,来削弱多重相关性的严重性。一阶差分回归模型有可能减少多重相关性的严重性。然而,一阶差分变换又带来了一些其它问题。差分后的误差项可能不满足总体模型中关于误差项不是序列相关的假定。事实上,在大部分情形下,在原来的误差项是不自相关的条件下,一阶差分所得到的误差项将会是序列相关的。而且,由于差分方法损失了一个观察值,这在小样本的情况下是极不可取的。另外,一阶差分方法在截面样本中是不宜利用的。
1 主成分分析
主成分分析的计算结果必然受到重叠信息的影响。因此,当人为地采用一些无益的相关变量时,无论从方向上还是从数量上,都会扭曲客观结论。在主成分分析之前,对变量系统的确定必须是慎之又慎的。
2 特异点的发现
第i个样本点(样本量为n)对第h主成分的贡献率是
(5-32) CTR(i)=Fh2(i)/(nλh) (若远超过1/n,为特异点)
3 典型相关分析
从某种意义上说,多元回归分析、判别分析或对应分析等许多重要的数据分析方法,都可以归结为典型相关分析的一种特例,同时它还是偏最小二乘回归分析的理论基石。
典型相关分析,是从变量组X中提取一个典型成分F=Xa,再从变量组Y中提取一个成分G=Yb,在提取过程中,要求F与G的相关程度达到最大。
在典型相关分析中,采用下述原则寻优,即
max<F,G>=aX'Yb a'X'Xa=1, b'Y'Yb=1
其结果为,a是对应于矩阵V11-1 V12 V22-1 V21最大特征值的特征向量,而b是对应于矩阵V22-1 V21V11-1 V12最大特征值的特征向量,这两个最大特征值相同。其中,
V11=X'X,V12=X'Y,V22=Y'Y。
F与G之间存在着明显的换算关系。
有时只有一个典型成分还不够,还可以考虑第二个典型成分。
多因变量的偏最小二乘回归模型
1 工作目标
偏最小二乘回归分析的建模方法
设有q个因变量和p个自变量。为了研究因变量与自变量的统计关系,观测了n个样本点,由此构成了自变量与因变量的数据表X和Y。偏最小二乘回归分别在X与Y中提取出t和u,要求:(1)t和u应尽可能大地携带它们各自数据表中的变异信息;(2)t和u的相关程度能够达到最大。在第一个成分被提取后,偏最小二乘回归分别实施X对t的回归以及Y对t的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用X被t解释后的残余信息以及Y被t解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对X共提取了多个成分,偏最小二乘回归将通过施行yk对X的这些成分的回归,然后再表达成yk关于原自变量的回归方程。
2 计算方法
首先将数据做标准化处理。X经标准化处理后的数据矩阵记为E0=( E01,…,E0p)n×p,Y的相应矩阵记为F0=( F01,…,F0q)n×q。
第一步 记t 1是E0的第一个成分,t 1= E0w1,w1是E0的第一个轴,它是一个单位向量,即|| w1||=1。
记u 1是F0的第一个成分,u 1= F0c1,c1是F0的第一个轴,并且|| c1||=1。
于是,要求解下列优化问题,即
(7-1)
记θ1= w1'E0'F0c1,即正是优化问题的目标函数值。
采用拉格朗日算法,可得
(7-8) E0'F0F0'E0w1=θ12 w1
(7-9) F0'E0E0'F0c1=θ12 c1
所以,w1是对应于E0'F0F0'E0矩阵最大特征值的单位特征向量,而c1是对应于F0'E0E0'F0矩阵最大特征值θ12的单位特征向量。
求得轴w1和c1后,即可得到成分
t 1= E0w1
u 1= F0c1
然后,分别求E0和F0对t 1的回归方程
(7-10) E0= t 1 p1'+ E1
(7-12) F0= t 1r1'+ F1
式中,回归系数向量是
(7-13) p1= E0' t 1/|| t 1||2
(7-15) r1= F0' t 1/|| t 1||2
而E1和F1分别是两个方程的残差矩阵。
第二步 用残差矩阵E1和F1取代E0和F0,然后,求第二个轴w2和c2以及第二个成分t2,u2,有
t 2= E1w2
u 2= F1c2
θ2=< t2, u2>= w2'E1'F1c2
w2是对应于E1'F1F1'E1矩阵最大特征值的单位特征向量,而c2是对应于F1'E1E1'F1矩阵最大特征值θ22的单位特征向量。计算回归系数
p2= E1' t 2/|| t 2||2
r2= F1' t 2/|| t2||2
因此,有回归方程
E1= t 2 p2'+ E2
F1= t 2r2'+ F2
如此计算下去,如果X的秩是A,则会有
(7-16) E0= t 1 p1'+…+t A pA'
(7-17) F0= t 1r1'+ …+t A rA'+ FA
由于t1,…,t A均可以表示成E01,…,E0p的线性组合,因此,式(7-17)还可以还原成yk= F0k关于xj= E0j的回归方程形式,即
yk=αk1 x1+…+αkp xp+ FAk, k=1,2,…,q
FAk是残差矩阵FA的第k列。
3 交叉有效性
如果多一个成分而少一个样本的预测误差平方和(所有因变量和预测样本相加)除以少一个成分的误差平方和(所有的因变量和样本相加)小于0952,则多一个成分是值得的。
4 一种更简洁的计算方法
用下述原则提取自变量中的成分t 1,是与原则式(7-1)的结果完全等价的,即
(7-24)
(1)求矩阵E0'F0F0'E0最大特征值所对应的单位特征向量w1,求成分t 1,得
t 1= E0w1
E1= E0-t 1 p1'
式中, p1= E0' t 1/|| t 1||2
(2)求矩阵E1'F0F0'E1最大特征值所对应的单位特征向量w2,求成分t2,得
t 2= E1w2
E2= E1-t 2 p2'
式中, p2= E1' t 2/|| t2||2
……
(m)至第m步,求成分tm= Em-1wm,wm是矩阵Em-1'F0F0'Em-1最大特征值所对应的单位特征向量
如果根据交叉有效性,确定共抽取m个成分t1,…,tm可以得到一个满意的观测模型,则求F0在t1,…,tm上的普通最小二乘回归方程为
F0= t 1r1'+ …+t mrm'+ Fm
偏最小二乘回归的辅助分析技术
1 精度分析
定义自变量成分th的各种解释能力如下
(1)th对某自变量xj的解释能力
(8-1) Rd(xj; th)=r2(xj, th)
(2)th对X的解释能力
(8-2) Rd(X; th)=[r2(x1, th) + …+ r2(xp, th)]/p
(3)t1,…,tm对X的累计解释能力
(8-3) Rd(X; t1,…,tm)= Rd(X; t1) + …+ Rd(X; tm)
(4)t1,…,tm对某自变量xj的累计解释能力
(8-4) Rd(xj; t1,…,tm)= Rd(xj; t1) + …+ Rd(xj; tm)
(5)th对某因变量yk的解释能力
(8-5) Rd(yk; th)=r2(yk, th)
(6)th对Y的解释能力
(8-6) Rd(Y; th)=[r2(y1, th) + …+ r2(yq, th)]/q
(7)t1,…,tm对Y的累计解释能力
(8-7) Rd(Y; t1,…,tm)= Rd(Y; t1) + …+ Rd(Y; tm)
(8)t1,…,tm对某因变量yk的累计解释能力
(8-8) Rd(yk; t1,…,tm)= Rd(yk; t1) + …+ Rd(yk; tm)
2 自变量x j在解释因变量集合Y的作用
x j在解释Y时作用的重要性,可以用变量投影重要性指标VIP j来测度
VIP j 2=p[Rd(Y; t1) w1j2+ …+ Rd(Y; tm) wmj2]/[Rd(Y; t1) + …+ Rd(Y; tm)]
式中,whj是轴wh的第j个分量。注意 VIP1 2+ …+ VIP p2=p
3 特异点的发现
定义第i个样本点对第h成分th的贡献率Thi2,用它来发现样本点集合中的特异点,即
(8-10) Thi2=thi2/((n-1)s h2)
式中,s h2是成分th的方差。
由此,还可以测算样本点i对成分t1,…,tm的累计贡献率
(8-11) Ti2= T1i2+ …+ Tmi2
当
Ti2≥m(n2-1)F005(m,n-m)/(n2 (n-m))
时,可以认为在95%的检验水平上,样本点i对成分t1,…,tm的贡献过大。
单因变量的偏最小二乘回归模型
1 简化算法
第一步 已知数据E0,F0,由于u 1= F0,可得
w1= E0'F0/|| E0'F0||
t 1= E0w1
p1= E0' t 1/|| t 1||2
E1= E0-t 1 p1'
检验交叉有效性。若有效,继续计算;否则只提取一个成分t 1。
第h步(h=2,…,m) 已知数据Eh-1,F0,有
wh= Eh-1'F0/|| Eh-1'F0||
t h= Eh-1wh
ph= Eh-1' t h/|| t h||2
Eh= Eh-1-th ph'
检验交叉有效性。若有效,继续计算h+1步;否则停止求成分的计算。
这时,得到m个成分t1,…,t m,实施F0在t1,…,t m上的回归,得
F0^= r1t 1+ …+ rmt m
由于t1,…,t m均是E0的线性组合,即
t h= Eh-1wh= E0wh
所以F0^可写成E0的线性组合形式,即
F0^= r1 E0w1+ …+ rm E0wm= E0[r1 w1+ …+ rm wm]
最后,也可以变换成y对x1,…,x p的回归方程
y^= α0+α1x1+ …+αp xp
老大,首先,你上传的图我无法看清。
其次,用SPSS软件做主成分分析也没那么复杂,不过你要钻研一番。下面的说明及举例希望可以对你有帮助:
主成分分析法在SPSS中的操作
1、指标数据选取、收集与录入(表1)
2、Analyze →Data Reduction →Factor Analysis,弹出Factor Analysis 对话框:
3、把指标数据选入Variables 框,Descriptives: Correlation Matrix 框组中选中Coefficients,然后点击Continue, 返回Factor Analysis 对话框,单击OK。
注意:SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。
从表3 可知GDP 与工业增加值, 第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系, 与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强, 证明他们存在信息上的重叠。
主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标, 如果特征值小于1, 说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大, 因此一般可以用特征值大于1作为纳入标准。通过表4( 方差分解主成分提取分析) 可知, 提取2个主成分, 即m=2, 从表5( 初始因子载荷矩阵) 可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息; 人均GDP 和农业增加值指标在第二主成分上有较高载荷, 说明第二主成分基本反映了人均GDP 和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息, 所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到, 因为“Component Matrix”是指初始因子载荷矩阵, 每一个载荷量表示主成分与对应变量的相关系数。
用表5( 主成分载荷矩阵) 中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数。将初始因子载荷矩阵中的两列数据输入( 可用复制粘贴的方法) 到数据编辑窗口( 为变量B1、B2) , 然后利用“Transform→Compute Variable”, 在Compute Variable对话框中输入“A1=B1/SQR(722)”[注: 第二主成分SQR后的括号中填1235, 即可得到特征向量A1(见表6)。同理, 可得到特征向量A2。将得到的特征向量与标准化后的数据相乘, 然后就可以得出主成分表达式[注: 因本例只是为了说明如何在SPSS 进行主成分分析, 故在此不对提取的主成分进行命名, 有兴趣的读者可自行命名。
标准化:通过Analyze→Descriptive Statistics→Descriptives 对话框来实现: 弹出Descriptives 对话框后, 把X1~X10 选入Variables 框, 在Save standardized values as variables 前的方框打上钩, 点击“OK”, 经标准化的数据会自动填入数据窗口中, 并以Z开头命名。
以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型, 即用第一主成分F1 中每个指标所对应的系数乘上第一主成分F1 所对应的贡献率再除以所提取两个主成分的两个贡献率之和, 然后加上第二主成分F2 中每个指标所对应的系数乘上第二主成分F2 所对应的贡献率再除以所提取两个主成分的两个贡献率之和, 即可得到综合得分模型:
根据主成分综合模型即可计算综合主成分值, 并对其按综合主成分值进行排序, 即可对各地区进行综合评价比较, 结果见表8。
具体检验还需进一步探讨与学习
欢迎分享,转载请注明来源:品搜搜测评网