论文部分内容阅读
形式概念分析是一种有效的知识表示与知识处理工具,已被广泛的应用于信息检索、机器学习、人工智能和软件工程等领域。然而,随着数据库和网络技术的发展与应用,数据库的规模不断增长,数据库中包含的信息量也在急剧膨胀。在包含有价值信息的同时,这些数据库中也存在着大量的冗余信息,因而研究如何从这些数据库中高效地提取有用的知识就具有重要的意义。
为了提高基于概念格的知识表示与获取效率,推动概念格更广泛的应用,论文对形式概念分析理论进行了深入研究,主要工作包括:(1)在概念格的属性约简方面,研究分布式环境下概念格的属性约简方法;(2)在伪内涵问题方面,研究计算伪内涵的高效算法;(3)研究概念相似性度量和概念近似技术;给出基于相似性度量和概念分析的模块识别方法,以寻求高效的支持遗留软件系统重构技术。
论文的主要研究成果体现在以下几个方面:
·从概念格Hasse图和形式背景的角度,刻画形式背景中不同类型属性的特征;通过分析核心属性和绝对不必要属性的局部特征与全局特征间的关系,提出一种计算分布式环境下概念格的属性约简方法。其基本思想是利用独立计算出的局部形式背景的约简,通过合并计算得到全局形式背景的约简。
·从概念内涵最小生成子的角度,刻画伪内涵的特征,提出一种基于概念内涵最小生成子的伪内涵算法。该算法的特点是只需对概念内涵的非闭集最小生成子进行计算,便可得到形式背景所有的伪内涵。对算法的性能进行分析,并给出一些优化策略。与现有算法相比,该算法有效缩减了伪内涵的搜索空间规模,提高了伪内涵的计算效率。
·给出形式背景中基于互信息的属性重要度,并定义形式概念间的相似性度量;在此基础上,给出一种基于相似性度量的概念近似方法。对任意给定的对象集、属性集或对象集与属性集序偶,返回概念格中与之最佳相似的上近似概念和下近似概念。该方法充分考虑了属性的重要度和概念格的结构特征,有助于获得更好的概念近似结果。
·提出一种基于相似性度量和形式概念分析的模块识别方法。在概念分析过程中,通过引入概念抽象、哑概念和相似性度茸等新的特性,有效解决概念重叠对候选模块质量的影响,提高了模块抽取的自动化程度和重构后的软件系统质量。