论文部分内容阅读
这篇论文主要研究的是数据分类问题以及其在实践中的应用。本文主要借鉴了模型定阶中常用的AIC方法以及用来进行分类的聚类分析方法中的优点和欠缺,着眼于数据分类时类的个数如何确定这一问题进行探讨。本文汲取了系统聚类法中通过定义距离或相似系数并以其大小将对象进行分类的基本思想,将之与有序样本情况下的最优分割法相结合,吸收了系统聚类法的直观性和最优分割法的简捷性及可以求出精确最优解的良好性质,在存在历史数据的条件下,假设同类数据来自于同一分布,历史数据相应的来自该分布。这样,由于每个类内离差平方和为该数据所属分布的方差的相合且无偏的估计的倍数,故如果分类合理,则由待分数据得到的离差平方和应与由历史数据得到的离差平方和相接近。因此,定义了分类误差这个判断标准,取分类误差最小时类的个数和分类的方法为最佳的数据分类方法,从而弥补了凭借主观经验决定类数的不合理性。在AIC准则思想的启发下,将应该同属于一个分类的数据看作是在某一分布中抽取的样本,从而通过求Kullback-Leibler信息量的渐近无偏估计而达到确定类数与数据分类的目的。有感于实际情况中数据量的大小不等,存在着不满足大样本条件但是却有大量历史数据的待分数据这一现象,将上述方法进一步推广到每一分类均为自回归序列AR(p)(p已知)时的数据分类问题,提出了AIC_AR方法。本文是在如何客观合理地对中国经济区域进行分类这一实际背景下进行研究的。正文的最后部分将文中的一些方法应用于该问题,主要使用的数据为近年来的GDP和人均GDP,通过对数据的处理分析将中国大陆地区划分为若干个经济区域,并列出结果。