数据分类及其在中国经济区域划分问题上的应用

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:aiwoba1215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这篇论文主要研究的是数据分类问题以及其在实践中的应用。本文主要借鉴了模型定阶中常用的AIC方法以及用来进行分类的聚类分析方法中的优点和欠缺,着眼于数据分类时类的个数如何确定这一问题进行探讨。本文汲取了系统聚类法中通过定义距离或相似系数并以其大小将对象进行分类的基本思想,将之与有序样本情况下的最优分割法相结合,吸收了系统聚类法的直观性和最优分割法的简捷性及可以求出精确最优解的良好性质,在存在历史数据的条件下,假设同类数据来自于同一分布,历史数据相应的来自该分布。这样,由于每个类内离差平方和为该数据所属分布的方差的相合且无偏的估计的倍数,故如果分类合理,则由待分数据得到的离差平方和应与由历史数据得到的离差平方和相接近。因此,定义了分类误差这个判断标准,取分类误差最小时类的个数和分类的方法为最佳的数据分类方法,从而弥补了凭借主观经验决定类数的不合理性。在AIC准则思想的启发下,将应该同属于一个分类的数据看作是在某一分布中抽取的样本,从而通过求Kullback-Leibler信息量的渐近无偏估计而达到确定类数与数据分类的目的。有感于实际情况中数据量的大小不等,存在着不满足大样本条件但是却有大量历史数据的待分数据这一现象,将上述方法进一步推广到每一分类均为自回归序列AR(p)(p已知)时的数据分类问题,提出了AIC_AR方法。本文是在如何客观合理地对中国经济区域进行分类这一实际背景下进行研究的。正文的最后部分将文中的一些方法应用于该问题,主要使用的数据为近年来的GDP和人均GDP,通过对数据的处理分析将中国大陆地区划分为若干个经济区域,并列出结果。
其他文献
自主探究性学习模式是新课程改革中逐渐兴起的一种富有成效的学习模式。这一学习模式侧重于让学生运用所学知识,灵活运用多种方法,从不同角度去发现问题和解决问题,为学生提
该文利用马尔可夫过程理论、线性方程组理论以及Laplace变换和Laplace逆变换对以下三个系统做了可靠性分析:(1)多传感器融合可修2/3(G)表决系统.(2)有优先权的开关寿命连续型
汹涌的激流卷走了岳林涛的身躯,无情的漩涡带走了这位年仅36岁的共产党员。然而,激流和漩涡却无法将这位英雄从我们心中抹去,他曾说过的那句“平常时候能看出来,关键时刻能站
该论文讨论了相依随机变量列极限定理及其在金融保险中的应用.该文中讨论的相依随机变量主要为负相协随机变量列和两边线性过程.负相协性由Alam & Saxena(1981)和Joag-Dev &
课堂教学的生活化是道德与法制课教学的新趋向.本人结合平时的教学实践,论述了小学道德与法制生活化教学的内涵、教学策略及注意的事项.
群体决策和多属性决策是决策科学的两个重要学科分支,群体多属性决策则是群体决策和多属性决策相互交叉渗透的一个新的研究领域.通常,在处理群体多属性决策问题的方法中,一般
根据日本纸类出口公会及纸类进口公会的统计,今年上半年(1—6月)累计纸与纸板及加工纸的进出口实绩中,纸类出口量合计比去年同期减少了13.8%,成为753890吨;金额部分则是减少
全球经济的日益繁荣与复杂多变,造就了保险业的不断发展与壮大.保险公司通过销售保单不断获取资金收入的同时,也为投保人担当一定的经济风险.在实际保险业务中,一旦发生巨额
新媒体给高校教育带来了机遇,也带来了严峻的挑战,要想利用新媒体为教育服务,必须要积极应对挑战,强化优势作用。本文以大学生思政教育为例,对新媒体的利与弊进行了分析,提出
合成核酸链被用于基因研究中。寡核苷酸或核酸是由许多核苷酸聚合成的生物大分子化合物。作为全球基因合成领域的领导者,美国Integrated DNA Technologies(IDT)公司在基因合