区间型符号数据的回归分析及其评价研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:xdlclub
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,带来信息大爆炸和数据量的极大丰富,传统的回归分析主要针对点数据,在处理海量数据时具有以下两点局限:一、随着数据量的增大,模型计算的复杂度增加。二、研究对象为样本点时,从整体上把握数据属性方面有所欠缺。符号数据分析方法通过“数据打包”,不仅降低了运算的数据量,也实现了从整体上把握海量数据内部之间关系。本文在符号数据分析理论框架内,对基于描述统计量的区间型符号数据回归模型进行理论方法与模型评价研究。区间数是一种重要的符号数据类型。当前已提出的基于特殊值的三类回归模型――中点法(CM)、上下限法(MINMAX)和中点半径法(CRM)均假定变量在区间内服从均匀分布,然而实际问题中常见非均匀分布的区间数据,如偏态分布,正态分布。在现有的均匀分布区间数据描述性统计量以及一般分布的区间型数据描述性统计量基础上,阐述课题组提出的可用于一般分布区间数回归分析的基于区间型符号数据描述统计量的回归模型。为进行模型评价,研究了区间数据的距离度量问题。针对现有的的区间数据距离度量多适用于区间内点数据服从均匀分布的不足,提出基于描述统计量的区间数据距离度量――μσ距离,并在其基础上建立评价指标体系。在此基础上,运用蒙特卡罗随机模拟技术与基于特殊值的三类区间型符号数据模型进行了方法有效性评价。本论文阐述了新的回归分析方法,研究结论表明,当区间数内部点数据服从正态分布,卡方分布等一般分布时,DSM明显优于基于特殊点的三类模型。当区间数内部点数据服从均匀分布时,CM可视为DSM的一个特例,MINMAX和中CRM由于对上下限分别生成了两个方程,在区间数内部点数据服从均匀分布时,优于CM和DSM。论文最后,以国外著名新闻评价网站“掘客网”内新闻的Diggs数、评论数和上传时间三个变量,形成区间型符号数据。分别应用上述四种回归分析方法进行了应用研究。
其他文献
在关于张謇的史料研究方面,目前最权威的<张季子九录>和<张謇全集>在编辑之时,因疏于考证和校订,致使对一些文稿的成文时间标注失实.文章以张謇有关文教事业的文稿、演说辞等
天然气因其安全、清洁、热值高等特点,在工业生产和民用中得到广泛使用。从气井中直接开采出的天然气一般会含有饱和水蒸气。水蒸气会对天然气的运输和使用产生多种危害。在天然气管路输送过程中,输送温度下降或压力升高极易使天然气中的水蒸气与烃类形成水合物,从而导致管路输送能力下降或直接堵塞管路和阀门;水蒸气会与天然气中存在的其他酸性气体,如H2S、CO2等反应生成腐蚀性酸,引起输送管路和设备腐蚀;当天然气作为
随着城市化进程的不断加速,城市中建筑单位日趋密集,城市的防火救援工作变得愈发严峻。消防部门在有限的人力下愈发难以完成消防检查、火灾救援等任务,因此在不降低消防救援效果的前提下降低消防部门的工作量成为当下消防部门工作的重要方向之一。而城市建筑的火灾预防工作也越来越得到社会各界的关注。本文研究从消防部门的消防检查、火灾预警和火灾救援三个方面入手,利用消防部门积累的历史火灾数据,对数据进行分析,并通过机
随着制造行业突飞猛进地发展,对加工精度的要求也越来越高,特别是在数控机床技术领域提高数控机床加工精度一直是研究的重点问题。而伺服进给系统作为数控机床的核心部分,其
英语专业学生的作文中普遍存在冗余现象,并在一定程度上影响了学生的作文质量。本文以错误分析和中介语理论为基础,通过"句酷批改网教师个人网站"(xiangyh.pipai.org)随机收集吉
随着全球经济快速、稳定增长,人类社会面临新问题:能源危机和环境污染。化石能源(如石油、煤炭、天然气等)过度开发利用,使得能源价格上涨、环境污染严重。交通运输对化石能