论文部分内容阅读
【摘 要】近年来中国经济发生了翻天覆地的变化,人民的生活水平得到了很大的提高。而消费水平是衡量人民生活水平的重要方面。如何正确认识和评价居民消费水平呢?本文正是以此为出发点,利用主成分分析和聚类分析展开的研究。分析了我国31个地区城市城镇居民生活消费水平的差异。
【关键词】主成分分析;聚类分析;消费水平
中图分类号:F126.1 文献标识码:A 文章编号:1009-8283(2010)08-0014-01
1 分析方法简介
1.1 主成分分析
主成分分析的原理。主成分分析是一种把多个变量化为少数几个主成分的统计分析方法。是在保证数据信息丢失最少的情况下,对高维空间进行降维已达到简化分析的目的。这些主成分通常表示为原始变量的某种线形组合。
1.2 聚类分析
聚类分析是研究样品或指标的分类问题的一种多元统计方法,因此也叫群分析。
本文考察中国31个省市城镇居民家庭消费性支出,而消费性支出包括食品、衣着、家庭设备用品及服务、交通通讯、教育文化娱乐服务、居住、杂项商品和服务等,要考察的项目较多也要对其进行分类。
2 地区综合消费水平评价中的应用
2.1 数据来源
本文数据为各地区域城镇居民家庭平均每人全年消费性支出(2007年),来自《2008年中国统计年鉴》,具体表格略。
2.2 主成分分析
(1)计算样本相关系数阵
由于多个变量使用的量纲可能各不相同或者变量间的数值大小相差很大,因此,首先要将初始变量标准化。把全国31个省市作为样本,将食品支出(x1),衣着支出(x2),家庭设备(x3),医疗保健支出(x4),交通通讯(x5),教育文化娱乐支出(x6),居住支出(x7),杂项支出(x8)八项支出作为变量。这样就得到了原始数据阵,算出样本相关系数阵为:
[TP1批14.TIF,BP]
(2)统计检验
KMO统计量是相关系数与偏相关系数的一个比值,其值越接近1,作主成分分析越合适;KMO统计量=0.880>0.7, p=0.000<0.01,所以适合于作主成分分析。Sig.=0.000,小于显著性水平(0.05或0.01),则说明相关系数阵不是单位矩阵,适合于作主成分分析。
(3)提取因子
从输出结果可以看出:前三个主成分的累计方差贡献率已达到90%以上,所以决定用三个新变量代替原来的八个变量。
从以上式子可以看出:
第一主成分,除x2之外,其余变量的系数都在0.3-0.4附近,说明第一主成分是七个变量的综合,而第二主成分主要反映衣着消费支出的信息,第三主成分主要反映医疗保健和居住消费支出的信息。
计算主成分的得分并排序如下:第一主成分得分排序为:上海、北京、广东、浙江、天津、福建、江苏、重庆、山东、辽宁、内蒙古、湖南、四川、湖北、安徽、吉林、陕西、海南、广西、河北、山西、甘肃、云南、江西、贵州、新疆、河南、宁夏、青海、西藏、黑龙江;综合排序如下:上海、北京、广东、浙江、天津、福建、江苏、重庆、山东、辽宁、内蒙古、湖南、四川、湖北、安徽、吉林、陕西、河南、广西、河北、云南、山西、江西、新疆、甘肃、贵州、河南、宁夏、西藏、青海、黑龙江。
由于第一主成分占得比重较大,所以以第一主成分的数值就可以反映原始变量的主要信息,大体代表综合的消费水平。加上第二、三主成分,可以对各地区的综合消费水平有了更为深入的了解,从而进一步了解到它们的综合实力,经济发展状况等。以上分析可以看出使用主成分分析法,可以用很少的指标代替原来众多的指标,达到简化分析的目的。
3 聚类分析
基于主成分分析的K-means聚类结果为:第一类包括北京、上海、广东浙江;第二类包括天津、江苏、福建、重庆;其余的为第三类;
层次聚类分析按综合消费水平把全国31个地区分为3类:第一类属于高消费地区,这些发展较早,外资企业较多,人口流动较大,第三产业比较发达且人均收入较高所以综合消费水平较高;第二类属于中等消费地区,主要由于受地域和经济水平等方面的限制,和第一类地区相比,教育文化娱乐、交通和通信等方面的消费水平明显下降,第三类为低消费地区,主要是这些地区多为西部欠发达地区,人均收入水平较低,所以各种消费水平均较低。从两种聚类方法的比较来看,层次聚类结果更好些,主要表现在它更好地反映了各地区真实的消费水平。
4 小结
本文利用全國31个省市城镇居民家庭消费支出的八个指标作为研究对象,用SPSS软件进行主成分分析和聚类分析,将八个指标降维到三个主成分,聚成三个类,更有效、准确的对地区综合消费水平进行评价。
参考文献:
[1] 张晓恫.计量经济学基础(第2版).南开大学出版社2005年5月
[2] 殷玲.我国居民消费行为的实证分析[J].商业研究, 2004, 20:18"19.
[3] 王芳,王景东.我国城镇消费结构的因子分析[J].商业研究, 2004, 21:9~11.
[4] 李佩泽.聚类分析和主成分分析在地区综合消费水平评价中的应用,2008年
【关键词】主成分分析;聚类分析;消费水平
中图分类号:F126.1 文献标识码:A 文章编号:1009-8283(2010)08-0014-01
1 分析方法简介
1.1 主成分分析
主成分分析的原理。主成分分析是一种把多个变量化为少数几个主成分的统计分析方法。是在保证数据信息丢失最少的情况下,对高维空间进行降维已达到简化分析的目的。这些主成分通常表示为原始变量的某种线形组合。
1.2 聚类分析
聚类分析是研究样品或指标的分类问题的一种多元统计方法,因此也叫群分析。
本文考察中国31个省市城镇居民家庭消费性支出,而消费性支出包括食品、衣着、家庭设备用品及服务、交通通讯、教育文化娱乐服务、居住、杂项商品和服务等,要考察的项目较多也要对其进行分类。
2 地区综合消费水平评价中的应用
2.1 数据来源
本文数据为各地区域城镇居民家庭平均每人全年消费性支出(2007年),来自《2008年中国统计年鉴》,具体表格略。
2.2 主成分分析
(1)计算样本相关系数阵
由于多个变量使用的量纲可能各不相同或者变量间的数值大小相差很大,因此,首先要将初始变量标准化。把全国31个省市作为样本,将食品支出(x1),衣着支出(x2),家庭设备(x3),医疗保健支出(x4),交通通讯(x5),教育文化娱乐支出(x6),居住支出(x7),杂项支出(x8)八项支出作为变量。这样就得到了原始数据阵,算出样本相关系数阵为:
[TP1批14.TIF,BP]
(2)统计检验
KMO统计量是相关系数与偏相关系数的一个比值,其值越接近1,作主成分分析越合适;KMO统计量=0.880>0.7, p=0.000<0.01,所以适合于作主成分分析。Sig.=0.000,小于显著性水平(0.05或0.01),则说明相关系数阵不是单位矩阵,适合于作主成分分析。
(3)提取因子
从输出结果可以看出:前三个主成分的累计方差贡献率已达到90%以上,所以决定用三个新变量代替原来的八个变量。
从以上式子可以看出:
第一主成分,除x2之外,其余变量的系数都在0.3-0.4附近,说明第一主成分是七个变量的综合,而第二主成分主要反映衣着消费支出的信息,第三主成分主要反映医疗保健和居住消费支出的信息。
计算主成分的得分并排序如下:第一主成分得分排序为:上海、北京、广东、浙江、天津、福建、江苏、重庆、山东、辽宁、内蒙古、湖南、四川、湖北、安徽、吉林、陕西、海南、广西、河北、山西、甘肃、云南、江西、贵州、新疆、河南、宁夏、青海、西藏、黑龙江;综合排序如下:上海、北京、广东、浙江、天津、福建、江苏、重庆、山东、辽宁、内蒙古、湖南、四川、湖北、安徽、吉林、陕西、河南、广西、河北、云南、山西、江西、新疆、甘肃、贵州、河南、宁夏、西藏、青海、黑龙江。
由于第一主成分占得比重较大,所以以第一主成分的数值就可以反映原始变量的主要信息,大体代表综合的消费水平。加上第二、三主成分,可以对各地区的综合消费水平有了更为深入的了解,从而进一步了解到它们的综合实力,经济发展状况等。以上分析可以看出使用主成分分析法,可以用很少的指标代替原来众多的指标,达到简化分析的目的。
3 聚类分析
基于主成分分析的K-means聚类结果为:第一类包括北京、上海、广东浙江;第二类包括天津、江苏、福建、重庆;其余的为第三类;
层次聚类分析按综合消费水平把全国31个地区分为3类:第一类属于高消费地区,这些发展较早,外资企业较多,人口流动较大,第三产业比较发达且人均收入较高所以综合消费水平较高;第二类属于中等消费地区,主要由于受地域和经济水平等方面的限制,和第一类地区相比,教育文化娱乐、交通和通信等方面的消费水平明显下降,第三类为低消费地区,主要是这些地区多为西部欠发达地区,人均收入水平较低,所以各种消费水平均较低。从两种聚类方法的比较来看,层次聚类结果更好些,主要表现在它更好地反映了各地区真实的消费水平。
4 小结
本文利用全國31个省市城镇居民家庭消费支出的八个指标作为研究对象,用SPSS软件进行主成分分析和聚类分析,将八个指标降维到三个主成分,聚成三个类,更有效、准确的对地区综合消费水平进行评价。
参考文献:
[1] 张晓恫.计量经济学基础(第2版).南开大学出版社2005年5月
[2] 殷玲.我国居民消费行为的实证分析[J].商业研究, 2004, 20:18"19.
[3] 王芳,王景东.我国城镇消费结构的因子分析[J].商业研究, 2004, 21:9~11.
[4] 李佩泽.聚类分析和主成分分析在地区综合消费水平评价中的应用,2008年