论文部分内容阅读
摘 要:近几年,中国房地产业得到了长足的发展,但房地产价格的上涨一直饱受争议,甚至有逃离“北、上、广”的言论,这也从侧面反映了房地产价格的区域特征。采用聚类分析法对2008年我国31个省、市、自治区房地产行业进行分析,将比较复杂的研究对象分类处理,降低了分析难度。
关键词:房地产 聚类分析 平均销售价格
本文以2008年中国31个省、市、自治区的房地产行业为分析对象,使用聚类分析法对销售价格进行等级结构划分,在考虑了多指标的综合影响,采用纯数学计算,是分析结果具有客观性的同时,对数据做标准化处理,然后用标准后的数据计算距离。房地产行业的销售情况——聚类分析法。
一、基本概念
聚类分析师研究“物以类聚,人以群分”的一种方法,又名点群分析,簇群分析等,是定量研究分类问题的一种多元统计方法.因此分类学便成为人类认识世界的基础科学。在社会生活的众多领域中都存在着大量的分类问题,以前人们主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类。最后再把整个分类统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。这种方法是最常用的一种,称为聚类分析。本文所采用的就是这种聚类分析方法。
二、变量类型的划分
1.间隔尺度:是用连续的实值变量来表示的,是由测量或计数、统计所得到的量.如:经济统计数字、抽样调查数据、身高、体重、年龄、速度、压力等。
2.有序尺度:没有明确的数量表示,而是划分一些等级,等级之间有次序关系.如:毕业论文成绩有:优、良、中、及格、不及格之分;体质状况有好、中、差三个等级;某产品质量可分为一等品、二等品、三等品三个等级等。
3.名义尺度:既没有数量表示,也没有次序关系,而是表现为某种状态,其值通常是非数值数据.如:性别有男、女;颜色有红、黄、蓝、绿等;医疗诊断中的阴性、阳性等。
三、系统聚类方法
首先,将n个样品看出n类(一类包含一个样品),然后将性质最接近的两类合并成一个新类,就得到n-1类,再从中找出最接近的两类加以合并变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图便可决定分多少类,每类各有什么样品。欲将研究对象分类是,根据研究对象的特点设一些指标,采集一些样品。当我们选择p个指标,n个样品时,就可以获得一个n×P的数据矩阵。
(1)
其中,Xij表示第i个样品的第j个指标的值。对样品进行分类是,我们将样品间的“靠近”程度由某种距离来刻画。聚类分析方法中的距离。在矩阵(1) 中, 每个样品有p 个指标, 故每个样品可以看成p 维空间中的一个点, n 个样品就组成p 维空间中的n 个点,此时自然想用距离来度量样品之间接近的程度。用Xi表示第i 个样品的第j 个指标,第j 个指标的对应值,第j个君子和标准差记作和Sj。用dij表示第i 个样品与第j 个样品之间的距离。
最常用的距离有:
绝对距离:。
欧氏距离:。
明考斯基距离:。
切比雪夫距离:。
四、系统聚类方法的步骤
1.计算n个样品两两间的距离离 ,记作D=(dij)。
2.构造n 个类,每个类只包含一个样品。
3.合并距离最近的两类为一新类。
4.计算新类与当前各类的距离. 若类的个数等于1 ,转到步骤(5),否则回到步骤(3)。
5.画聚类图。
6.决定类的个数和类。
五、实证分析
根据指标选取的针对性、数据可得性、可计量性和可比性等原则,本文选取2008年中国31个省、市、自治区房地产业的房屋平均销售价格,住宅平均销售价格,别墅、高档公寓平均销售价格,经济适用房平均销售价格,办公楼平均销售价格,商业营业用房平均销售价格,其他平均銷售价格,商品房销售面积,住宅销售面积等9个方面用于房地产行业价格的区域性特征分析。将数据录入spss中,采用系统聚类法,选择组间联接的方法,对个案进行聚类分析,得到如下两图。
第一次分类:如图1;第二次分类如图2。根据第一次的分类结果,对第3类再次进行Q型聚类。重复前一次的操作,得到结果。通过聚合系数,得到如上聚合系数随分类数变化的曲线。由图可以看出,当分类数为5的时候,曲线变得比较平缓。具体分类如下:第一类:西藏;第二类:海南;第三类:福建;第四类:江苏,山东,辽宁,四川;第五类:河南,湖南,内蒙古,安徽,广西,云南,贵州,新疆,湖北,陕西,重庆,吉林,黑龙江,河北,宁夏,山西,甘肃,江西。从经济发展状况来看待该地区的房产行业。西藏属于西部城市,经济相对来说较落后,而重庆,陕西等地由于其经济状况差异不大,被聚合为一类。
六、结果及分析
输出结果表1是反映每一阶段聚类的结果,第2列和第3列表示聚合的类,比如第一阶段时河南和湖南聚为一类。图1是组间联接树状图。图2是聚合系数谁分类数变化的曲线。由图可以看出,当分类数为3或者4时,曲线变得比较平缓,这个分类数也符合分类的目的。结合以上第一次分类后的三个图,我们可以得到分类结果如下。{1:北京},{2:浙江,广东,上海,天津},{3:河南,湖南,内蒙古,安徽,广西,云南,贵州,新疆,湖北,陕西,重庆,吉林,黑龙江,河北,宁夏,山西,甘肃,青海,江西,江苏,山东,辽宁,四川,福建,海南,西藏}。通过第二次分类,更加确信了房产行业的情况与当地的经济情况向关联。我们可以从房屋平均价格方面来理解所作的分类。第一类,仅有北京一个地方,北京作为中国首都,其房价最贵。第2类,浙江,上海等沿海经济发达城市。第3类,便是中西部城市,房价和该地的经济是相关联的。在这26个城市中,又分了五类出来。海南,福建单独的被分列出来。然后就是以河南,湖南内蒙古的为首的其他城市划分为了一类。说明这18个城市在房产行业差异不大。
七、总结及相关建议
本文基于我国2008年调查得出的数据,进行了聚类分析,做出了合理的经济解释。得出的结果如下:我们由spss软件输出的结果与我国实际的房屋出售的价格非常吻合,我们可以得出初步结论,我国住地的销售平均价格与其所在地区的经济状况有紧密的联系。经济越发达,该地的房屋面积平均销售价格就越贵,因此作为我国的首都,北京单独的列为了一类,远远领先于中西部城市的房屋平均销售价格。同时,新疆、西藏、重庆等内陆城市被归为了一类,说明大家在房屋、住宅等平均销售价格来看都是偏低的。通过这些建筑销售的平均价格来看,我国的建筑面积的销售价格展现的我国该地的经济发展情况,同时我国的房价应该得到相应的控制。然后还应该设法提高经济落后地区的经济实力,扶持经济发展良好的地区,突出经济发达地区,方能让我国的房屋销售价格得以控制。
参考文献:
[1]何晓群,多元统计分析[M],中国人民出版社,2010年版.
[2]曲丹,聚类分析方法在城市等级结构划分中的应用[B],城市规划,2004(4):241-244.
作者简介:陈静,女,汉,重庆,学历:研究生在读,单位:重庆工商大学,研究方向:国民经济核算。
关键词:房地产 聚类分析 平均销售价格
本文以2008年中国31个省、市、自治区的房地产行业为分析对象,使用聚类分析法对销售价格进行等级结构划分,在考虑了多指标的综合影响,采用纯数学计算,是分析结果具有客观性的同时,对数据做标准化处理,然后用标准后的数据计算距离。房地产行业的销售情况——聚类分析法。
一、基本概念
聚类分析师研究“物以类聚,人以群分”的一种方法,又名点群分析,簇群分析等,是定量研究分类问题的一种多元统计方法.因此分类学便成为人类认识世界的基础科学。在社会生活的众多领域中都存在着大量的分类问题,以前人们主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类。最后再把整个分类统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。这种方法是最常用的一种,称为聚类分析。本文所采用的就是这种聚类分析方法。
二、变量类型的划分
1.间隔尺度:是用连续的实值变量来表示的,是由测量或计数、统计所得到的量.如:经济统计数字、抽样调查数据、身高、体重、年龄、速度、压力等。
2.有序尺度:没有明确的数量表示,而是划分一些等级,等级之间有次序关系.如:毕业论文成绩有:优、良、中、及格、不及格之分;体质状况有好、中、差三个等级;某产品质量可分为一等品、二等品、三等品三个等级等。
3.名义尺度:既没有数量表示,也没有次序关系,而是表现为某种状态,其值通常是非数值数据.如:性别有男、女;颜色有红、黄、蓝、绿等;医疗诊断中的阴性、阳性等。
三、系统聚类方法
首先,将n个样品看出n类(一类包含一个样品),然后将性质最接近的两类合并成一个新类,就得到n-1类,再从中找出最接近的两类加以合并变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图便可决定分多少类,每类各有什么样品。欲将研究对象分类是,根据研究对象的特点设一些指标,采集一些样品。当我们选择p个指标,n个样品时,就可以获得一个n×P的数据矩阵。
(1)
其中,Xij表示第i个样品的第j个指标的值。对样品进行分类是,我们将样品间的“靠近”程度由某种距离来刻画。聚类分析方法中的距离。在矩阵(1) 中, 每个样品有p 个指标, 故每个样品可以看成p 维空间中的一个点, n 个样品就组成p 维空间中的n 个点,此时自然想用距离来度量样品之间接近的程度。用Xi表示第i 个样品的第j 个指标,第j 个指标的对应值,第j个君子和标准差记作和Sj。用dij表示第i 个样品与第j 个样品之间的距离。
最常用的距离有:
绝对距离:。
欧氏距离:。
明考斯基距离:。
切比雪夫距离:。
四、系统聚类方法的步骤
1.计算n个样品两两间的距离离 ,记作D=(dij)。
2.构造n 个类,每个类只包含一个样品。
3.合并距离最近的两类为一新类。
4.计算新类与当前各类的距离. 若类的个数等于1 ,转到步骤(5),否则回到步骤(3)。
5.画聚类图。
6.决定类的个数和类。
五、实证分析
根据指标选取的针对性、数据可得性、可计量性和可比性等原则,本文选取2008年中国31个省、市、自治区房地产业的房屋平均销售价格,住宅平均销售价格,别墅、高档公寓平均销售价格,经济适用房平均销售价格,办公楼平均销售价格,商业营业用房平均销售价格,其他平均銷售价格,商品房销售面积,住宅销售面积等9个方面用于房地产行业价格的区域性特征分析。将数据录入spss中,采用系统聚类法,选择组间联接的方法,对个案进行聚类分析,得到如下两图。
第一次分类:如图1;第二次分类如图2。根据第一次的分类结果,对第3类再次进行Q型聚类。重复前一次的操作,得到结果。通过聚合系数,得到如上聚合系数随分类数变化的曲线。由图可以看出,当分类数为5的时候,曲线变得比较平缓。具体分类如下:第一类:西藏;第二类:海南;第三类:福建;第四类:江苏,山东,辽宁,四川;第五类:河南,湖南,内蒙古,安徽,广西,云南,贵州,新疆,湖北,陕西,重庆,吉林,黑龙江,河北,宁夏,山西,甘肃,江西。从经济发展状况来看待该地区的房产行业。西藏属于西部城市,经济相对来说较落后,而重庆,陕西等地由于其经济状况差异不大,被聚合为一类。
六、结果及分析
输出结果表1是反映每一阶段聚类的结果,第2列和第3列表示聚合的类,比如第一阶段时河南和湖南聚为一类。图1是组间联接树状图。图2是聚合系数谁分类数变化的曲线。由图可以看出,当分类数为3或者4时,曲线变得比较平缓,这个分类数也符合分类的目的。结合以上第一次分类后的三个图,我们可以得到分类结果如下。{1:北京},{2:浙江,广东,上海,天津},{3:河南,湖南,内蒙古,安徽,广西,云南,贵州,新疆,湖北,陕西,重庆,吉林,黑龙江,河北,宁夏,山西,甘肃,青海,江西,江苏,山东,辽宁,四川,福建,海南,西藏}。通过第二次分类,更加确信了房产行业的情况与当地的经济情况向关联。我们可以从房屋平均价格方面来理解所作的分类。第一类,仅有北京一个地方,北京作为中国首都,其房价最贵。第2类,浙江,上海等沿海经济发达城市。第3类,便是中西部城市,房价和该地的经济是相关联的。在这26个城市中,又分了五类出来。海南,福建单独的被分列出来。然后就是以河南,湖南内蒙古的为首的其他城市划分为了一类。说明这18个城市在房产行业差异不大。
七、总结及相关建议
本文基于我国2008年调查得出的数据,进行了聚类分析,做出了合理的经济解释。得出的结果如下:我们由spss软件输出的结果与我国实际的房屋出售的价格非常吻合,我们可以得出初步结论,我国住地的销售平均价格与其所在地区的经济状况有紧密的联系。经济越发达,该地的房屋面积平均销售价格就越贵,因此作为我国的首都,北京单独的列为了一类,远远领先于中西部城市的房屋平均销售价格。同时,新疆、西藏、重庆等内陆城市被归为了一类,说明大家在房屋、住宅等平均销售价格来看都是偏低的。通过这些建筑销售的平均价格来看,我国的建筑面积的销售价格展现的我国该地的经济发展情况,同时我国的房价应该得到相应的控制。然后还应该设法提高经济落后地区的经济实力,扶持经济发展良好的地区,突出经济发达地区,方能让我国的房屋销售价格得以控制。
参考文献:
[1]何晓群,多元统计分析[M],中国人民出版社,2010年版.
[2]曲丹,聚类分析方法在城市等级结构划分中的应用[B],城市规划,2004(4):241-244.
作者简介:陈静,女,汉,重庆,学历:研究生在读,单位:重庆工商大学,研究方向:国民经济核算。