利用主成分分析评价全国31个省市自治区综合发展实力

主成份分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少、能解释大部分资料中的变异的几个新变量,即所谓主成份,并用以解释资料的综合性指标。由此可见,主成份分析实际上是一种降维方法。

主成份分析与因子分析的用途如下:(1)用于多元回归分析,解决共线性问题。如前所述,利用主成份分析提取出主要信息,然后使用提取出的主成份代替原变量进行分析,就可以避开原变量的共线性问题。(2)多指标综合评价时突出重点进行评价。当针对多种相关指标前提下,需要对于对于指标进行化简,然后用“主成份指标”进行加权评价,可以有效解决“主观权重”问题,并能够突出重点。(3)用于多指标聚类分析。存在相关关系密切的多种指标进行聚类分析时,需要在主成份分析的基础上进一步作出聚类分析,使类别划分更合理,更易得到合理的解释。

一、数据收集与整理

利用《中国统计年鉴2012》,收集进行地区评级所需要的原始数据。原始数据表如下图所示:

Screenshot

二、标准化处理

由于原始数据种类及单位不同,因此为消除量纲的影响,采用“标准差标准化”方法,将原始数据标准化。

打开spss,加载原始数据后,点击菜单栏—>“分析”—>“描述统计”—>“描述”,打开描述性窗口,变量框中选择原始数据中所有变量,再点击“选项”按钮,在弹出的“描述:选项”对话框中勾选“标准差”,点击继续后在描述性主窗口中勾选“将标准化得分另存为变量”,再点击确定后得到标准化结果表格,表格如下所示:

Screenshot

三、主成分分析

点击spss菜单栏中“分析”—>“降维”—>“因子分析”,打开因子分析对话框,变量框中选择标准化处理过后得到表格中所有变量,再点击“描述”按钮,打开“因子分析:描述统计”窗口,勾选“原始分析结果”、“系数”、“KMO和Bartlett的球形度检验”,点击继续后点击因子分析主窗口中“抽取”按钮,打开“因子分析:抽取”窗口,勾选“碎石图”,取消勾选“未旋转的因子解”,点击继续后点击因子分析主窗口中“评分”按钮,打开“因子分析:因子得分”窗口,勾选“保存为变量”,方法选择“回归”,并勾选“显示因子得分系数矩阵”,点击继续后再点击因子分析主窗口的“确定”按钮完成因子分析操作。得到KMO和Bartlett的检验表格,如下所示:

Screenshot

结果显示,KMO统计量值为0.822,表明“主成分分析”效果尚可,可以继续进行分析。

在上一步完成因子分析操作后即可得到相关系数矩阵如下图所示:

Screenshot

由SPSS输出的“碎石图”如下图所示:

Screenshot

根据主成份分析特征值(Eigenvalue)大于1作为主成份选择依据,选择两个主成份FAC1_1和FAC2_1。方差累积贡献率达到85.133%,能够反映原始15个变量的绝大部分方差特征。总方差表格如下图所示:

Screenshot

成分矩阵表格如下图所示,可以看出FAC1_1和FAC2_1分别代表的原始变量特征:

Screenshot

得分系数表格如下图所示:

Screenshot

在标准化处理表格的末尾会得到两列新值,即为FAC1_1和FAC2_1的值,如下所示:

Screenshot

四、数据计算

根据解释的总方差表格可求得FAC1_1和FAC2_1的权重系数分别为0.854768与0.145231,即可在Excel中计算,公式为“=0.854768 FAC1_1+0.145231 FAC2_1”,得到全国各省综合发展实力评分表格,排序后如下图所示:

Screenshot

根据数据可以将综合发展实力评分划分为四个等级进行区分,及最高级(评分大于1),次高级(评分介于0到1),较低级(评分介于-1到0),低级(评分小于-1),并可以在ArcGIS中制作专题图,如下所示:

Screenshot