论文部分内容阅读
粗糙集理论是继概率论、模糊集理论、证据理论之后的又一个处理含糊性和不确定性的数学工具;同时粗糙集理论的核心问题是等价分类,并且要求分类是完全确定的,而实际的数据集往往都受到一定的噪声干扰且数据不一定完整,这就会影响对数据集的等价分类,因此Ziarko在粗糙集模型的基础上引入了错误分类率参数β,将粗糙集模型扩展成变精度粗糙集模型以解决这一问题。变精度粗糙集能很有效地处理噪声数据,实现整体上较优的信息处理能力。
属性约简是粗糙集理论中一个重要的研究课题,在知识获取、机器学习、模式识别、决策分析、模型建立等实际应用中具有重要的意义。粗糙集属性约简算法有很多,而且对属性约简的研究也一直在进行,但是从条件属性的所有组合中找出所有约简的属性集被科学家证明是个NP难题,而高效的约简算法是粗糙集应用于知识发现的基础。因此,寻求快速有效的约简算法仍是粗糙集理论的主要研究课题之一。
基于变精度粗糙集理论的约简能够使系统在泛化能力、容错性、噪声抑制方面都有很好的性能,但该算法对于大数据量的搜索需要的时间和空间代价都很高;而遗传算法具有通用、并行、稳健、简单及全局优化能力强等优点,特别适用于复杂、困难的全局优化问题。因此,本文作为江苏省高校自然科学基金(05Km520048)项目“基于变精度粗糙集理论的故障诊断方法研究”的一部分,在分析了现有的属性约简方法基础上,吸收传统算法的优点,基于遗传算法和变精度粗糙集理论,在β下近似约简概念的基础上,将由属性对分类的影响程度和β近似精度共同定义的属性重要性度量作为启发式信息引入遗传算法,提出了一种新的变精度粗糙集下的属性约简方法,即基于启发式遗传算法的变精度粗糙集属性约简方法。该方法在当决策系统有多个最小约简时,能得到尽可能多的最小约简。
另外,为了解决遗传算法收敛速度不快的缺点,本文对遗传算法的选择、交叉、变异三个算子进行了改进;同时对于遗传算法的局部寻优能力较差、所产生的最优解一般精度不高的缺点,本文使用一个修正算子来对种群进行修复,从而使算法总在可行解空间中搜索,保证在可行解的条件下尽量增加个体适应值,最终既保持了整体优化特性,又具有较快的收敛速度。
把该约简方法应用到一个关于动物分类的决策系统,实例证明,该方法不仅可以克服标准遗传算法概率收敛的问题,而且又具有较快的收敛速度;在当决策系统有多个最小约简时,也能得到尽可能多的最小约简。同时,该方法克服了标准粗糙集模型对数据噪声过于敏感的缺点,增强了数据处理的鲁棒性。