论文部分内容阅读
粗糙集(Rough sets)理论是由Pawlak教授于20世纪80年代初提出的一种用于处理不确定性和含糊性知识的数学工具,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。它无需提供相关数据集合外的任何先验信息,适合于发现数据中隐含的、潜在有用的规律,即知识,找出其内部数据的关联关系和特征。近年来,粗糙集理论和应用取得了很大的成功,已成为软计算方法的重要分支,其涉及的领域包括模式识别、机器学习、决策分析和决策支持、知识获取、知识发现等。提取关联规则的决策树模型具有易构造、结构简单、易于理解、分类精度高且易于转化成SOL语句有效地存取数据库,易于算法实现等优点,尤其适于规则提取。 首先,本文介绍了经典(Pawlak型)粗糙集的基本理论及其在不完全信息下的推广模型。经典粗糙集是建立在完全信息和等价关系基础之上的,用一对上下近似集合来表示一个不精确的概念。其次,研究了粗糙集理论的属性约简和规则提取问题,已经证明求所有约简和最小约简是NP-Hard问题。由于在实际应用中,我们应用关联规则进行决策时感兴趣的是一种能够提供决策支持的强规则,为保证有用规则的有效挖掘,属性约简和规则提取应在这个条件下进行。本文提出了一种基于限制条件的属性约简和规则提取的方法,它可以求出满足我们要求的所有强规则,并且运算量比较小。然后研究了粗糙集理论和决策树的结合,提出了限制条件下的一种基于粗糙集理论的决策树算法,并把它用到了保险分析。最后,本文研究了粗糙集在不完全信息下的推广,提出了一种基于限制条件的不完全信息处理模型。