论文部分内容阅读
大量来自客观世界的数据不仅结构复杂,而且具有众多的属性。这些属性在应用中其重要性并不是完全相同的,有的属性甚至是冗余的。根据应用的需要删除冗余属性和不影响应用的属性既有利于数据的有效保存,又有利于从数据中获取知识。属性约简是删除冗余属性和不重要属性的一种有效方法。
对数据集进行属性约简的研究是粗糙集理论的重要内容之一。Wong.S.K.M和Ziarko.W已经证明了基于粗糙集找出一个决策表(数据集)的最小约简是NP-hard问题。己知的多数基于粗糙集的数据约简算法一般是启发式算法,难于保证获得的约简是最小约简。常常数据集最小约简中包含的属性数目也难于确定。鉴于此,本文将分形理论与属性约简联系起来进行研究,用数据集的分形维数作为其本征维数,由此获得最小约简的一个有效判据。实验表明,这种判据是有效的和可行性的。
本文研究的内容和主要成果包括:
①详细介绍了属性约简相关技术与方法的研究现状。
②研究了基于粗糙集的属性约简技术和分形维数计算方法,指出了基于粗集约简存在的缺陷,给出了一个有效的分形维数计算方法。
③研究了目前常用的两种基于分形维数的约简算法,提出了改进算法。实验表明,该算法不仅能较好地解决了最小约简问题,也能将能处理的数据集的类型从单纯的决策表扩展到一般数据集。
④研究了属性约简方法与关联规则挖掘方法的融合。实验表明,利用属性约简的结果到关联规则挖掘中,能够有效地减少挖掘过程中人工干预的过程,并且能够获得较好的挖掘参数。
本文的研究表明,将分形维数与数据约简技术结合起来有利于确定约简目标,为获得最小约简提供了有效的判据;将属性约简与关联规则挖掘技术结合起来能够为获得自适应的挖掘算法提供有益的指导。