计算权重是一种常见的分析方法,在实际研究中,需要结合数据的特征情况进行选择,比如数据之间的波动性是一种信息量,那么可考虑使用CRITIC权重法或信息量权重法;也或者专家打分数据,那么可使用AHP层次法或优序图法。
本文列出常见的权重计算方法,并且对比各类权重计算法的思想和大概原理,使用条件等,便于研究人员选择出科学的权重计算方法。
首先列出常见的8类权重计算方法,如下表所示:
这8类权重计算的原理各不相同,结合各类方法计算权重的原理大致上可分成4类,分别如下:
第一类、信息浓缩 (因子分析和主成分分析)
计算权重时,因子分析法和主成分法均可计算权重,而且利用的原理完全一模一样,都是利用信息浓缩的思想。因子分析法和主成分法的区别在于,因子分析法加带了‘旋转’的功能,而主成分法目的更多是浓缩信息。
‘旋转’功能可以让因子更具有解释意义,如果希望提取出的因子具有可解释性,一般使用因子分析法更多;并非说主成分出来的结果就完全没有可解释性,只是有时候其解释性相对较差而已,但其计算更快,因而受到广泛的应用。
比如有14个分析项,该14项可以浓缩成4个方面(也称因子或主成分),此时该4个方面分别的权重是多少呢?此即为因子分析或主成分法计算权重的原理,它利用信息量提取的原理,将14项浓缩成4个方面(因子或主成分),每个因子或主成分提取出的信息量(方差解释率)即可用于计算权重。接下来以SPSSAU为例讲解具体使用因子分析法计算权重。
如果说预期14项可分为4个因子,那么可主动设置提取出4个因子,相当于14句话可浓缩成4个关键词。
但有的时候并不知晓到底应该多少个因子更适合,此时可结合软件自动推荐的结果和专业知识综合进行判断。点击SPSSAU‘开始分析’后,输出关键表格结果如下:
上表格中**底纹为‘旋转前方差解释率’,其为没有旋转前的结果,实质上就是主成分的结果。如果是使用因子分析,一般使用‘旋转后方差解释率’对应的结果。
结果中方差解释率%表示每个因子提取的信息量,比如第1个因子提取信息量为223%,第2个因子为21862%,第3个因子为18051%,第4个因子为10931%。并且4个因子累积提取的信息量为73145%。
那么当前4个因子可以表述14项,而且4个因子提取出14项的累积信息量为73145%。现希望得到4个因子分别的权重,此时可利用归一化处理,即相当于4个因子全部代表了整体14项,那么第1个因子的信息量为223%/73145%=3049%;类似的第2个因子为21862%/73145%=2989%;第3个因子为18051%/73145%=2468%;第4个因子为10931%/73145%=1494%。
如果是使用主成分法进行权重计算,其原理也类似,事实上结果上就是‘旋转前方差解释率’值的对应计算即可。
使用浓缩信息的原理进行权重计算时,只能得到各个因子的权重,无法得到具体每个分析项的权重,此时可继续结合后续的权重方法(通常是熵值法),得到具体各项的权重,然后汇总在一起,最终构建出权重体系。
通过因子分析或主成分分析进行权重计算的核心点即得到方差解释率值,但在得到权重前,事实上还有较多的准备工作,比如本例子中提取出4个因子,为什么是4个不是5个或者6个;这是结合专业知识和分析方法提取的其它指标进行了判断;以及有的时候某些分析项并不适合进行分析,还需要进行删除处理后才能进行分析等,此类准备工作是在分析前准备好,具体可参考SPSSAU帮助手册里面有具体的实际案例和视频说明等。
第二类、数字相对大小 (AHP层次法和优序图法)
计算权重的第二类方法原理是利用数字相对大小,数字越大其权重会相对越高。此类原理的代表性方法为AHP层次法和优序图法。
1 AHP层次法
AHP层次分析法的第一步是构建判断矩阵,即建立一个表格,表格里面表述了分析项的相对重要性大小。比如选择旅游景点时共有4个考虑因素,分别是景色,门票,交通和拥护度,那么此4个因素的相对重要性构建出判断矩阵如下表:
表格中数字代表相对重要的大小,比如门票和景色的数字为3分,其说明门票相对于景色来讲,门票更加重要。当然反过来,景色相对于门票就更不重要,因此得分为1/3=03333分。
AHP层次分析法正是利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。AHP层次分析法一般用于专家打分,直接让多位专家(一般是4~7个)提供相对重要性的打分判断矩阵,然后进行汇总(一般是去掉最大值和最小值,然后计算平均值得到最终的判断矩阵,最终计算得到各因素的权重。
SPSSAU共有两个按键可进行AHP层次分析法计算。
如果是问卷数据,比如本例中共有4个因素,问卷中可以直接问“景色的重要性多大?”,“门票的重要性多大?”,“交通的重要性多大?”,“拥护度的重要性多大?”。可使用SPSSAU问卷研究--权重,系统会自动计算平均值,然后直接利用平均值大小相除得到相对重要性大小,即自动计算得到判断矩阵而不需要研究人员手工输入。
如果是使用综合评价--AHP层次分析法,研究人员需要自己手工输入判断矩阵。
2 优序图法
除了AHP层次分析法外,优序图法也是利用数字的相对大小进行权重计算。
数字相对更大时编码为1,数字完全相同为05,数字相对更我码为0。然后利用求和且归一化的方法计算得到权重。比如当前有9个指标,而且都有9个指标的平均值,9个指标两两之间的相对大小可以进行对比,并且SPSSAU会自动建立优序图权重计算表并且计算权重,如下表格:
上表格中数字0表示相对不重要,数字1表示相对更重要,数字05表示一样重要。比如指标2的平均值为3967,指标1的平均值是41,因此指标1不如指标2重要;指标4的平均值为43,重要性高于指标1。也或者指标7和指标9的平均得发均为4133分,因此它们的重要性一样,记为05。结合上面最关键的优序图权重计算表,然后得到各个具体指标(因素)的权重值。
优序图法适用于专家打分法,专家只需要对每个指标的重要性打分即可,然后让软件SPSSAU直接结合重要性打分值计算出相对重要性指标表格,最终计算得到权重。
优序图法和AHP法的思想上基本一致,均是利用了数字的相对重要性大小计算。一般在问卷研究和专家打分时,使用AHP层次分析法或优序图法较多。
第三类、信息量 (熵值法)
计算权重可以利用信息浓缩,也可利用数字相对重要性大小,除此之外,还可利用信息量的多少,即数据携带的信息量大小(物理学上的熵值原理)进行权重计算。
熵值是不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。因而利用熵值携带的信息进行权重计算,结合各项指标的变异程度,利用信息熵这个工具,计算出各项指标的权重,为多指标综合评价提供依据。
在实际研究中,通常情况下是先进行信息浓缩法(因子或主成分法)得到因子或主成分的权重,即得到高维度的权重,然后想得到具体每项的权重时,可使用熵值法进行计算。
SPSSAU在综合评价模块中提供此方法,其计算也较为简单易懂,直接把分析项放在框中即可得到具体的权重值。
第四类、数据波动性或相关性 (CRITIC、独立性和信息量权重)
可利用因子或主成分法对信息进行浓缩,也可以利用数字相对大小进行AHP或优序图法分析得到权重,还可利用物理学上的熵值原理(即信息量携带多少)的方法得到权重。除此之外,数据之间的波动性大小也是一种信息,也或者数据之间的相关关系大小,也是一种信息,可利用数据波动性大小或数据相关关系大小计算权重。
1 CRITIC权重法
CRITIC权重法是一种客观赋权法。其思想在于用两项指标,分别是对比强度和冲突性指标。对比强度使用标准差进行表示,如果数据标准差越大说明波动越大,权重会越高;冲突性使用相关系数进行表示,如果指标之间的相关系数值越大,说明冲突性越小,那么其权重也就越低。权重计算时,对比强度与冲突性指标相乘,并且进行归一化处理,即得到最终的权重。使用SPSSAU时,自动会建立对比强度和冲突性指标,并且计算得到权重值。
CRITIC权重法适用于这样一类数据,即数据稳定性可视作一种信息,并且分析的指标或因素之间有着一定的关联关系时。比如医院里面的指标:出院人数、入出院诊断符合率、治疗有效率、平均床位使用率、病床周转次数共5个指标;此5个指标的稳定性是一种信息,而且此5个指标之间本身就可能有着相关性。因此CRITIC权重法刚好利用数据的波动性(对比强度)和相关性(冲突性)进行权重计算。
SPSSAU综合评价里面提供CRITIC权重法,如下图所示:
2 独立性权重法
独立性权重法是一种客观赋权法。其思想在于利用指标之间的共线性强弱来确定权重。如果说某指标与其它指标的相关性很强,说明信息有着较大的重叠,意味着该指标的权重会比较低,反之如果说某指标与其它指标的相关性较弱,那么说明该指标携带的信息量较大,该指标应该赋予更高的权重。
独立性权重法仅仅只考虑了数据之间相关性,其计算方式是使用回归分析得到的复相关系数R 值来表示共线性强弱(即相关性强弱),该值越大说明共线性越强,权重会越低。比如有5个指标,那么指标1作为因变量,其余4个指标作为自变量进行回归分析,就会得到复相关系数R 值,余下4个指标重复进行即可。计算权重时,首先得到复相关系数R 值的倒数即1/R ,然后将值进行归一化即得到权重。
比如某企业计划招聘5名研究岗位人员,应聘人员共有30名,企业进行了五门专业方面的笔试,并且记录下30名应聘者的成绩。由于专业课成绩具有信息重叠,因此不能简单的直接把成绩加和用于评价应聘者的专业素质。因此使用独立性权重进行计算,便于得到更加科学客观的评价,选出最适合的应聘者。
SPSSAU综合评价里面提供独立性权重法,如下图所示:
3 信息量权重法
信息量权重法也称变异系数法,信息量权重法是一种客观赋权法。其思想在于利用数据的变异系数进行权重赋值,如果变异系数越大,说明其携带的信息越大,因而权重也会越大,此种方法适用于专家打分、或者面试官进行面试打分时对评价对象(面试者)进行综合评价。
比如有5个水平差不多的面试官对10个面试者进行打分,如果说某个面试官对面试者打分数据变异系数值较小,说明该面试官对所有面试者的评价都基本一致,因而其携带信息较小,权重也会较低;反之如果某个面试官对面试者打分数据变异系数值较大,说明该面试官对所有面试者的评价差异较大,因而其携带信息大,权重也会较高。
SPSSAU综合评价里面提供信息量权重法,如下图所示:
对应方法的案例说明、结果解读这里不再一一详述,有兴趣可以参考SPSSAU帮助手册。
在用spss进行主成分分析的时候,默认对原始变量进行标准化。
1、首先在spss中输入需要分析的变量。
2、Analyze→Data Reduction→Factor 进入之后,先点击 Descriptives ,在Correlation复选框下选中Coefficients ;
3、点击Extraction,在Display复选框里选中scree plot ;同时点击Scores,选中Display factor score cofficient matrix ;点Rotation ,在Method复选框下选中Varimax(方差最大化法旋转)。
4、点击ok就可以得出你主成分分析的结果(包括累计贡献率等),spss中不可以直接求出因子的权重,要用到权重计算公式。
spss功能:
在10版以后,SPSS的每个新增版本都会对数据管理功能作一些改进,以使用户的使用更为方便。13版中的改进可能主要有以下几个方面:
1)超长变量名:在12版中,变量名已经最多可以为64个字符长度,13版中可能还要大大放宽这一限制,以达到对当今各种复杂数据仓库更好的兼容性。
2)改进的Autorecode过程:该过程将可以使用自动编码模版,从而用户可以按自定义的顺序,而不是默认的ASCII码顺序进行变量值的重编码。另外,Autorecode过程将可以同时对多个变量进行重编码,以提高分析效率。
3)改进的日期/时间函数:本次的改进将集中在使得两个日期/时间差值的计算,以及对日期变量值的增减更为容易上。
本文重点讨论对降维中常用的统计分析方法之一:主成分分析法。对影响31个城市综合评价的8个指标,用主成分分析法确定8个指标的权重,并使用SPASS和Python两种实战方式进行操作。
主成分分析(Principal components analysis)的思路主要是将原始多个变量通过线性组合的(矩阵旋转)方式转化为几个线无关的变量,且新生成的变量包含了原始变量的绝大部分信息,从而达到降维的目的。但因为新生成成分中所有原变量都占有一定比例,不同比例之间没有一个统一衡量的标准,所以这种方式在解释性方面相对较差。
实际使用的时候,如果变量间的数据波动量比较大,需要进行数据的归一化处理。但在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。所以标准化是视实际使用场景而定。
主成分分析不要求数据呈正态分布,主要是使用了线性变换的技术,因为其应用范围较广,通过对原始变量进行综合与简化,可以客观地确定各个指标的权重,避免主观判断的随意性。但是从主成分的思路出发,其主要适用于变量间相关性较强的数据,如果原始数据相关性弱,则起不到很好的降维作用,且降维后存在一定的数据丢失。
从食品,衣着,居住,家庭设备,交通通讯,文教娱乐,医疗保健,其他8个指标对全国31个主要城市统计
注:数据不具实际含义,仅用于分析过程学习。
注Bartlett球形度检验:检验是否适合主成分析。其原假设是变量间两两相互独立。KMO判断适合主成分析的程度。
查看各个主成分的特征根,方差,方差占比。
主要查看各个维度在成分上的载荷
根据上一步的计算的权重计算主每个城市得分:
Indicator = ∑DiWi (D表示原始指标数值,W表示当前维度的权重)
我们采用机器学习库Scikit-learn进行PCA操作,基于协方差进行矩阵变换。
从31和32结果中可以看到排名中有些城市在两种方式上的结果略微有些差异,这个是SPASS和Scikit-learn实现上存在一定的差异,本文的重点在于讨论主成分分析在两种方式上的实现。
如果问题,欢迎回复交流。如有需要源数据的,可以回复获取。
特别声明,本文的数据来自于随机制造,不构成任何效力,仅用于技术学习使用。
客观赋权法主要有变异系数法、熵值法和多元统计分析法,其原始数据来自评估矩阵的数据。它的基本原理是利用指标的观测值进行赋权,权重的确定完全由统计数据得出。这类方法切断了权重系数的主观性来源,使系数具有绝对的客观性,但却容易出现 “重要指标的权重系数小而不重要指标的权重指标系数大”的不合理现象。
(一)变异系数法
变异系数法的基本思想是:在通过指标体系进行评估时,指标体系中各指标所包含的信息量不同,即各指标对被评估对象的区分能力不同。一般来讲,如果一个指标能够明确区分其他指标,则该指标与其他指标的差异大,说明该指标包含的信息量大,应该赋予该指标较大的权重;反之,则应赋予较小的权重。在统计学中,指标的变异信息量常用方差衡量,但由于指标量纲和数量级的差异,各指标的方差不具有可比性。因此,选用各指标的变异系数作为衡量指标变异信息量大小的指标。将各指标的变异系数做归一化处理,就可得到各指标的权重。具体过程如下:
设指标体系由m个指标组成,有n个参评样本,计算出各指标的均值和方差:
地质资料社会化服务评估研究
则各指标的变异系数为:
地质资料社会化服务评估研究
对Vi做归一化处理,即可得出各指标的权重wi
地质资料社会化服务评估研究
(二)熵值法
熵是信息论中测量不确定性的量,信息量越大,不确定性就越小,熵也就越小。反之,信息量越小,不确定性就越大,熵也就越大。熵值法就是用指标熵值来确定权重大小的方法。一般的,将评估对象集记为{Ai}(i=1,2,…,m),用于评估的指标集记为{Xj}(j=1,2,…,n),用xij表示第i个方案第j个指标的原始值。熵值法的计算过程为:
(1)将xij做正向化处理,并计算第j个指标第i个方案所占的比重pij
地质资料社会化服务评估研究
(2)计算第j个指标的熵值ej
地质资料社会化服务评估研究
(3)计算第j个指标的差异系数gj
地质资料社会化服务评估研究
(4)计算第j个指标的权重wj
地质资料社会化服务评估研究
熵值法是突出局部差异的权重计算方法,是根据同一指标观测值之间的差异程度来反映其重要程度的。这种方法,有时可能造成重要指标的权重系数小而不重要指标的权重系数大的不合理现象。
(三)多元统计分析法
多元统计分析法是处理多变量数据的有力工具,在构建评估指标体系的权重时,主要使用到主成分分析法和因子分析法。
1主成分分析法(Principal component analysis)
用主成分分析法进行多指标综合评价的基本原理是通过适当的数学变换使新的指标成为原有指标的线性组合,并用较少的指标(主成分)代替原有指标,主成分之间相互独立。可以证明:指标的协方差矩阵的第k个特征值等于第k个主成分的方差(k=1,2,…,n);其对应的特征向量是第k个主成分的相应系数;并且主成分按照方差大小顺序排列。因此,第一主成分代表原有指标的信息最多,第二主成分次之,根据此原理,利用主成分能构造综合指数。
主成分分析确定权重的步骤如下:
(1)原始指标数据标准化;
(2)计算指标间的相关系数矩阵R;
(3)计算R的特征根和特征向量;
(4)根据主成分的方差贡献率 确定主成分个数p;
(5)将p个主成分综合为综合指数。
2因子分析法(Factor analysis)
用因子分析法确定权重的原理是:从所研究的全部原始变量中,将有关信息集中起来,通过讨论相关矩阵的内部依赖关系,将多指标综合成少数因子(综合指标),再现指标与因子之间的相关关系,并进一步分析这些相关关系的内部原因。因子分析法确定权重的步骤是:
(1)原始指标数据标准化;
(2)计算指标间的相互关系矩阵R;
(3)计算R的特征根和特征向量;
(4)根据方差贡献率 (α一般取85%)确定特征根的个数和和相应的特征向量Ui(i=1,2,…,m),利用m个特征值和特征向量建立初始因子载荷矩阵 ;
(5)建立因子模型:
地质资料社会化服务评估研究
式中f1,f2,…,fm为公共因子;ξ为特殊因子。
(6)对初始因子载荷矩阵进行旋转变换,使载荷矩阵结构简单,关系明确。如果初始因子间不相关,采用方差进行极大正交旋转;如果因子间有相关关系,则进行斜交旋转。通过旋转得到比较理想的因子在乎矩阵Al=(ai,j)n×m;
(7)将因子表示为变量的线性组合,由最小二乘法估计求出因子得分系数矩阵:
地质资料社会化服务评估研究
(8)确定权重。指标xj的权重是 其中 为方差贡献率,将βi归一化为xj的权重。
熵值法 :指标的取值的种类越多,不确定性越大,信息熵越大,权重越小
critic法 :指标的标准差越大,这意味着取值更加分散,权重越大
仿佛这两个方法对指标离散程度的考虑是相反的,但真的是这样吗?处女座表示不捋清楚不舒服,又比较笨,想了一晚上好像也没有得到严谨准确的结论,自己编了几个变量试了试结果,小结一下,不一定对,怕自己忘记,写下来以后继续完善。
https://wenkubaiducom/view/3f9cdb61001ca300a6c30c22590102020740f2e9html
这里介绍了权重确定的四个方法:主成分分析,均方差,熵值法和CRITIC法。
表格中间两行分别是这两种方法计算出的指标权重,上面是指标编造的原数据,下面是熵值法中标准化后计算的Pij矩阵(标准化时默认指标为负向指标,数越小越好)。
青睐Pj中1分给较少的位置,每个位置较大的数。如:
(1,0,0)>(05,05,0)>(033,033,033)
这在原始数据中的表现就是:对负向指标,偏向于较小的数值集中在较小的集合里这样的指标,同理,对正向指标,偏向于较大的数值集中在较小的集合里这样的指标。
简单的总结,在坐标轴中分别画出每个指标的位置,熵值法偏向于
1:能紧密集中的指标(对比X1,X3,X5)
2:集中的簇少的指标(对比X3,X5)
3:负向指标,小数在小集合,正向指标,大数在小集合(对比X5,X6和X6,X7,X8)这一点要足够满足的话,那前面1,2两点也一点很满足,所以这一点在这三个当中更加重要。
青睐于数值差别大的指标,这和指标是否集中的簇要区分开,如X3,X4和X5,X6他们的簇相同,熵值法很难区分权重,但是簇与簇之间的距离很大,这时候CRITIC方法就有偏向,使权重分配差别很大。但这可能受量纲的影响很大,而且对正向变量和负向变量没有区分(如X7和X8),所有这两种方法各有利弊,最好结合着用。有点明白DY为什么要我写这两个程序了。
(1)首先将数据标准化,这是考虑到不同数据间的量纲不一致,因而必须要无量纲化。
(2)对标准化后的数据进行因子分析(主成分方法),使用方差最大化旋转。
(3)写出主因子得分和每个主因子的方程贡献率。 Fj =β1jX1 +β2jX2 +β3jX3 + ……+ βnjXn ; Fj 为主成分(j=1、2、……、m),X1、X2 、X3 、……、Xn 为各个指标,β1j、β2j、β3j、……、βnj为各指标在主成分Fj 中的系数得分,用ej表示Fj的方程贡献率。
(4)求出指标权重。 ωi=[(m∑j)βijej]/[(n∑i)(m∑j)βijej],ωi就是指标Xi的权重。
扩展资料
产品特点
1、操作简便
界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。
2、编程方便
具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。
对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。
3、功能强大
具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。
-spss
欢迎分享,转载请注明来源:品搜搜测评网