论文部分内容阅读
数据挖掘(Data Mining)是人工智能与数据库领域当前研究的一个热点,引起了大量学者与专家的关注。数据挖掘有许多功能,比如关联分析、聚类分析、例外分析等,其中例外分析也称例外模式挖掘,是数据挖掘的一个重要研究课题。一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,那些不符合大多数数据对象所构成的模型的数据对象被称为异类(Outlier)或例外(Exception)。以前许多数据挖掘算法在正式进行数据挖掘之前都把例外对象当作噪声而将其排除在数据挖掘的分析处理范围之外。但是从知识发现的角度来看,在一些应用场合,如电子商务欺诈行为的检测,银行信用卡欺诈行为的检测等,那些很少发生的事情往往比经常发生的事情更有趣、更有研究价值。因此,例外模式挖掘是一项重要且有意义的研究工作。目前,例外模式挖掘的研究工作主要集中在单个数据库上。随着分布式数据库技术及计算机网络技术的不断发展,多数据库系统已经应用于现实生活中,比如一个总公司需要为分布在不同地方的多个子公司分别建立数据库,从而构成一个多数据库系统。总决策者需要分析分布在不同分支的多个数据库,从而做出更加合理有效的决策。从这些分布在不同分支的多个数据库中挖掘出的有些模式是仅被少数数据库强烈支持的,这样的模式也即例外模式,它们反映了子公司的个性,适用于决策者为这些少数的子公司根据其个性制定出特殊的决策,另一方面,这些例外模式也可能正是事物未来的发展方向,因此,多数据库中的例外模式挖掘也有着重要的现实意义。本文首先介绍了数据挖掘及多数据库中的数据挖掘的概念及现有的技术,并在现有工作的基础上,提出了一些新想法与新见解,并通过实验验证了所提出方法的可行性与有效性。本论文的主要工作分三部分展开:(1)在现有文献所研究的低选票例外模式挖掘的基础之上,提出一种基于数据约束的挖掘方法,该方法以用户的兴趣为导向,首先选择用户感兴趣的数据对象,然后分别在各个局部数据库中找出对应的数据构成新的数据库。在新的多数据库中,先局部挖掘各个数据库,得到局部模式集,再进行综合,得到最终的全局低选票例外模式。本文还用实验验证了该方法的有效性。(2)提出一种新的多数据库中的例外模式的定义——高选票例外模式,并提出一种挖掘方法。该方法主要用到了规则的聚类技术,一方面将相似的规则合并,另一方面将规则进行分类。聚类之后,在每个类中,我们先找出高选票模式,即选票数大于平均选票数的模式,然后再在高选票模式中利用方差能够反映数据波动程度的性质挖掘出最终的高选票例外模式。实验证明,我们所提出的方法是可行且有效的。(3)从客观和主观两方面分别分析了现有的一些对模式的评价方法,并提出对多数据库中模式评价的两种客观性度量。