论文部分内容阅读
数据挖掘是一种快速的、高效的、智能的数据分析方法,用于发现大量数据背后隐含的信息。粗糙集理论作为一种处理不确定和不精确性问题的新的数学工具,已广泛应用于数据挖掘领域,该理论不需要任何先验知识并且能够简化输入信息的表达空间。属性约简要求在保持知识库的分类能力不变的条件下,删除其中不必要的属性,形成精简的规则库以帮助人们做出正确的决策。寻求高效的属性约简算法是粗糙集理论的主要研究内容,在数据挖掘领域具有重要意义。本文提出了一种基于变精度粗糙集的决策树构造算法和一种基于自适应粒子群和信息熵的属性约简算法。一是在变精度粗糙集理论的基础上,提出的一种利用新的启发式函数构造决策树的算法。该算法把变精度加权平均粗糙度作为分类属性的选择标准,在决策树构造中用确切的置信度标记决策树的规则,使得到的决策规则更易理解,且相应的算法应用MATLAB程序进行实现,并通过实例说明所给算法的有效性。二是在分析模糊粗糙集的基础上,提出的一种基于自适应粒子群和信息熵的属性约简算法。利用基于自适应粒子群的模糊C均值聚类算法进行聚类分析,将聚类得到的属性隶属矩阵用于属性约简,并提出了一种基于自适应粒子群和信息熵的属性约简算法,通过实例验证该算法的可行性。