论文部分内容阅读
分类器设计是模式识别系统中的关键步骤之一,它直接影响到系统的分类能力。目前的许多设计方法中,分类器大多采用的是单层结构,即直接将输入模式映射为识别出来的结果,这类结构虽然简单直观,但是往往难于发挥分类器设计算法的最大性能。文中从分类器的结构方面考虑,提出了一种基于粗糙集的SCM分类器的设计方法。集覆盖机(The set covering machine,SCM)理论是由Mario Marchand和John Shawe-Taylor在2002年提出的,它是作为支持向量机(The supportvector machine,SVM)的替换选项提出来的。SCM是一种基于集合覆盖的贪婪算法的分类方法,这种方法所得的分类函数简单,而且理论和实践都证明了SCM是一种非常优秀的机器学习方法。但是在处理实际问题时,数据库中的数据往往含有大量冗余或不必要的属性,这严重降低了SCM算法的时间效率和算法质量。因此删除数据的冗余属性和无关属性即属性约简就成了数据预处理过程中的主要任务,而粗糙集理论是处理属性约简的一个非常实用理论工具。所以本文利用粗糙集理论在处理大数据量,消除冗余信息等方面的优势,先对数据进行预处理,除掉输入SCM方法的噪声数据,从而提高分类的准确性。本文首先简要介绍了粗糙集理论及粗糙集的属性约简,接着介绍了SCM的相关知识,包括SCM的提出背景、理论基础和算法的实现,并用一个实例演示了算法的运算过程。然后简单探讨了粗糙集理论的属性约简和集合覆盖问题,从而将二者联系起来。最后提出了一种基于粗糙集的SCM分类器的设计方法。目前关于SCM研究还很少,并无大量的文献可供参考,对SCM的实现及应用本身就是一种较新的尝试。本文通过实例证实了这种基于粗糙集的SCM分类器在不明显增加构造复杂度的情况下改善了分类器的性能。