论文部分内容阅读
随着互联网技术的快速发展,带来信息大爆炸和数据量的极大丰富,传统的回归分析主要针对点数据,在处理海量数据时具有以下两点局限:一、随着数据量的增大,模型计算的复杂度增加。二、研究对象为样本点时,从整体上把握数据属性方面有所欠缺。符号数据分析方法通过“数据打包”,不仅降低了运算的数据量,也实现了从整体上把握海量数据内部之间关系。本文在符号数据分析理论框架内,对基于描述统计量的区间型符号数据回归模型进行理论方法与模型评价研究。区间数是一种重要的符号数据类型。当前已提出的基于特殊值的三类回归模型――中点法(CM)、上下限法(MINMAX)和中点半径法(CRM)均假定变量在区间内服从均匀分布,然而实际问题中常见非均匀分布的区间数据,如偏态分布,正态分布。在现有的均匀分布区间数据描述性统计量以及一般分布的区间型数据描述性统计量基础上,阐述课题组提出的可用于一般分布区间数回归分析的基于区间型符号数据描述统计量的回归模型。为进行模型评价,研究了区间数据的距离度量问题。针对现有的的区间数据距离度量多适用于区间内点数据服从均匀分布的不足,提出基于描述统计量的区间数据距离度量――μσ距离,并在其基础上建立评价指标体系。在此基础上,运用蒙特卡罗随机模拟技术与基于特殊值的三类区间型符号数据模型进行了方法有效性评价。本论文阐述了新的回归分析方法,研究结论表明,当区间数内部点数据服从正态分布,卡方分布等一般分布时,DSM明显优于基于特殊点的三类模型。当区间数内部点数据服从均匀分布时,CM可视为DSM的一个特例,MINMAX和中CRM由于对上下限分别生成了两个方程,在区间数内部点数据服从均匀分布时,优于CM和DSM。论文最后,以国外著名新闻评价网站“掘客网”内新闻的Diggs数、评论数和上传时间三个变量,形成区间型符号数据。分别应用上述四种回归分析方法进行了应用研究。