论文部分内容阅读
概念格是数据分析和知识提取的一种有效形式化工具,具有精确性和完备性等特点。约束概念格是利用用户对数据集的兴趣、了解、认识等作背景知识,指导概念格的构造,从而使概念格的结构更具有针对性和实用性。本文针对约束概念格的代数系统、基于约束概念格的离群数据挖掘进行了研究。主要研究工作如下:第一、约束概念格的代数系统。利用约束概念格节点之间的上、下确界运算,构造出了约束概念格的代数系统,并给出其代数性质,证明了约束概念格知识表示的完备性,从而为基于约束概念格的数据挖掘与知识发现奠定了理论基础。第二、提出了基于约束概念格的离群数据挖掘算法。首先,将约束概念格中每个概念节点的内涵缩减看作子空间,并计算其稀疏度系数,若某个K维内涵缩减的稀疏度系数小于稀疏度系数阈值,则考察其所有K-1维真子集,判断由这些真子集构成的子空间是否稠密;其次,根据稀疏度系数和稠密度系数,判断概念节点的外延所包含的对象是否为离群数据;最后,采用天体光谱数据作为形式背景,实验结果表明,该算法挖掘低维子空间中的偏离数据是准确的、完备的和有效的。第三、在上述研究的基础上,以VC++ 6.0和Oracle 9i为开发工具,设计并实现了天体光谱数据离群挖掘原型系统,并对软件模块功能、体系结构及关键技术进行了详细描述。运行结果表明,该系统是可行的、有价值的,从而为实现天体光谱数据离群数据挖掘提供了一种新途径。