论文部分内容阅读
形式概念分析是一种新的数据挖掘理论,它最早是由德国学者Wille提出的,它的核心数据结构是概念格结构模型。形式概念分析的思想主要来源于哲学,在哲学中,概念是由外延和内涵两部分组成的思想单元,而在形式概念分析中,概念的外延被理解为属于这个概念的所有对象的集合,内涵则被认为是所有这些对象所共有的特征集。概念和概念间的泛化和例化关系可以构成一个概念格,而与其相应的Hasse图则实现了概念格中概念及概念间层次关系的可视化。目前形式概念分析已被广泛地研究,并被应用到机器学习,软件工程和信息获取等领域。包含度是一种描述不确定性关系的有效的度量方法,它为不确定性推理提供了一个一般性原理。同时,它还便于进行信息的合成、传播和修正,特别地在各种关系数据库中有着直接的应用。关联规则是由R.Agrawal等人提出的,是当前数据挖掘研究的主要模式之一。它可以发现数据之间的联系,找出满足给定支持度和可信度阈值的依赖关系。本文主要对形式概念分析中的概念之间的包含度进行深入研究,并提出了一种利用概念之间的包含度进行关联规则提取的算法。所获研究成果不仅从理论上丰富和发展了形式概念分析,而且提升了形式概念分析在实际应用方面的探讨价值。本文获得了以下主要成果:(1)我们在形式概念分析的概念之间引入了包含度,并利用包含度理论描述了概念之间的量化关系,对概念格中概念之间的亚概念和超概念进行了刻画。本文的研究为从定量分析角度研究形式概念分析提供了新的依据,有利于对形式概念分析的进一步理解及扩展。(2)我们讨论了概念之间的包含度与关联规则的可信度之间的关系,进而提出了基于包含度的关联规则提取算法。由于生成的关联规则具有较高的冗余度,我们引入了φ最大关联概念和φ最大关联概念集的定义,给出了基于包含度的无冗余关联规则的提取算法,并通过实例验证了该算法的有效性。这为从形式背景上进行关联规则提取提供了一种新的途径。