论文部分内容阅读
本文研究了两类数据挖掘方法。全文分五个部分:引言、数据挖掘方法概述、关联分析方法研究、趋势分析方法研究和结论。在引言中介绍了数据挖掘产生的原因:数据的急剧膨胀和高度时效性与人们得不到科学决策所需要的有效信息和知识之间的矛盾;给出了数据挖掘的发展和演化过程;然后指出了数据挖掘前景,最后叙述了本文所做的全部工作。在第一章数据挖掘方法概述部分,重点阐述了数据挖掘的定义、数据挖掘方法分类、数据挖掘方法研究现状以及数据挖掘和统计学的区别与联系。指出了数据挖掘定义所包括的几层含义:面向真实数据、面向具体问题等;给出了数据挖掘方法的分类,确定了本文研究的两类挖掘方法在整个数据挖掘方法中的地位和作用;从八个方面详细总结了现阶段数据挖掘方法的研究现状;最后对数据挖掘与统计学的关系进行了讨论,指出了数据挖掘与统计学相同之处和本质区别。在第二章关联分析方法研究部分,重点讨论关联分析的经典方法和基于兴趣度的否定关联分析方法。通过一个实例,指出了经典关联分析方法在“支持度-置信度”框架下产生了错误的关联规则;并针对这种情况,提出了基于兴趣度的否定关联分析方法,对所举实例进行分析,表明该方法能挖掘出更加符合实际的、用户感兴趣的否定关联规则。该方法采用卡方统计量作为兴趣度度量,并修改经典关联分析方法:方法,以进行否定关联分析。在第三章趋势分析方法研究部分,通过对交易数据项集进行编码把原始数据转换成整数值随机变量序列,并说明了该序列为马尔可夫链,然后用频率代替转移概率,建立了一个趋势分析的模型。对超市销售数据进行分析表明该方法简单、实用,而且得到一个有趣的结果:顾客对同一产品的不同品牌的选择是没有差别的。在第四章结论部分,对本文在数据挖掘方法上的研究工作进行了总结。