论文部分内容阅读
约简以及属性选择都是数据挖掘中的重要技术,人们一直致力于寻求快速的约简算法,以及如何删除无关属性与冗余属性。本文就这两方面问题进行了研究与讨论。在对数据挖掘进行概述之后,提出了基于素数性质的布尔函数约简算法,然后综述前人在属性选择领域所作的工作,最后提出了两个属性选择算法。在第二章提出了基于素数性质的布尔函数约简算法,主要思想是用素数表示布尔变量,以算术运算代替逻辑运算。本文重新定义了布尔系统,并且用新系统中的公理与规则描述了原有布尔系统的定律,因此,基于素数性质的布尔系统具有完备性。该算法运用于粗糙集属性约简中,可以减少空间消耗,同时提高时间效率。第三章对属性选择进行综述,总结该领域的现有成果,描述一些经典算法,并分析其优劣。第四章首先介绍了列联表,并且论述了列联表与皮尔逊卡方统计量的关系。然后论述了常用的相关性度量准则。之后提出了基于卡方统计量的属性选择算法,算法的主要思想是计算各个属性与分类属性的卡方值,卡方值越大,相关性越强,将属性按照与分类属性的相关性,划分为三个等级,分别为强相关、相关和弱相关,在强相关属性子集中找到最弱强相关属性,以最弱强相关为判定相关的阈值,在弱相关属性子集中找到最强弱相关属性,以最强弱相关为判定独立的阈值。将强相关属性子集中的冗余属性删除,得到强相关约简属性子集,然后将相关属性子集中与强相关约简属性子集所有属性都独立的属性选择出来,将弱相关属性子集完全删除。最后采用NIPS2003数据集为实验数据,给出实验结果,并将结果提交到NIPS2003网站,由该网站平台给出各项参数的评价结果。第五章提出了相关性概率的概念。将卡方值转换为独立性置信水平,求得相关性概率。然后提出了位差的概念,以及正位差属性、零位差属性和负位差属性等概念。之后提出了基于位差的属性选择算法,其主要过程是将负位差属性删除。该算法是针对离散型属性的,因此,在进行属性选择之前,采用Kmeans算法以无监督的方式将各个属性离散化。最后,将NIPS2003数据集的实验结果提交到该网站。