论文部分内容阅读
由于计算机网络和数据库技术的发展需要,数据库中的KDD(知识获取)和数据挖掘技术方法的研究已经成为人工智能和机器学习过程中非常热门的研究领域。KDD技术主要是用来发现信息系统中隐藏的、潜在的知识,实质是在数据集合中寻找数据间的有效性规则和模式。在许多的KDD研究中,关联规则的实用性和商业价值,是受到广泛关注的研究领域。关联规则的研究想法就是为了从大规模的数据库中发现不同对象之间有用的关联关系,其应用背景已经从简单的网上购物分析扩展到网络优化,入侵检测,生物信息分析,软件测试,设备诊断等应用论域。理论研究内容从最初的频繁模式挖掘扩展到闭合模式挖掘、最大模式挖掘,增量挖掘、主题兴趣度度量、隐私保护、数据流等多种类型数据上的关联规则挖掘。由于现有的信息系统种类很多,其中的数据量也很大,所以对不同信息系统下的数据进行关联规则技术进行的研究和探索是有必要的。本文研究了已有的关联规则技术和分析了现有的研究方向,提出了挖掘关联规则系统的方法,因而得到了一定的成果。本文的主要工作体现在以下几个方面:绪论部分介绍了数据挖掘、粗糙集理论的发展背景和现状,以及关联规则的概念和研究现状和方向;首先介绍了信息系统、信息表和决策表的基本概念,以及不相容系统的判别方法;接着讨论了信息系统的数据预处理方法,主要是从不完备数据处理、属性值的离散化处理两个方面来讨论;之后介绍了灰色理论概念,通过灰色理论聚类方法来实现从信息表构建决策表的过程;重点介绍了几种通用的关联规则方法,同时提出了一种基于覆盖对象集的关联规则算法,并且对每种方法的效率和适用范围进行了比较;最后介绍了关联规则约简方法,通过关联规则约简,对已挖掘出来的规则进行删除、合并等操作,从而得到泛化能力强,覆盖对象多的规则。在实际问题中有许多信息系统由于噪声,信息不完备等原因,从而导致系统的不协调性。因此想从复杂的原始信息系统中获取有效关联规则的研究是非常有意义的课题。为此,本文对信息系统进行预处理,离散化后,在对处理后的信息系统转换为带决策属性的决策表。根据信息系统的协调性,在使用相应的关联规则方法,对决策表进行关联规则的提取。同时对于提取出来的规则本文设计了一个规则约简的过程,用来简化已经获得的规则,增强规则的对象覆盖能力。最终得到用户需要的更简洁、更一般、更可靠的关联规则。