论文部分内容阅读
粗糙集理论不依赖于所需处理的数据集合之外的任何先验信息,它对不精确、不确定、不完整的信息和知识具有很强的分析处理能力。20世纪50年代末以来,关于粗糙集理论和应用的研究逐渐成为智能信息处理领域的热点问题。传统的粗糙集理论在数据挖掘中的应用大多是通过结构化的方法来实现的,但是这种方法存在着数据模型结构性不强、软件复用率低、可扩展性差等主要问题。另外,基于粗糙集的属性约简系统大多是针对某一特定关系型数据库或格式化的数据文件而设计的,因此很难描述复杂对象,缺乏灵活性与通用性,难以满足研究和应用的需要。为了解决这些问题,本文将面向对象理论和粗糙集理论相结合,在传统粗糙集理论应用的基础上引入面向对象数据库,设计了一种用于属性约简的对象模型和约简模型,并充分考虑到面向对象数据库对复杂对象具有优越的存储、检索能力,从而提出了一个基于面向对象数据库的粗糙集模型,并深入探讨了该模型实现属性约简算法的关键技术。实验结果表明,该模型不但能有效地对数据集进行约简,而且还具有结构简单、具有良好的扩展性等优点。此外,本文所提出的对象模型同样适用于其它的数据挖掘系统。具体研究工作如下:⑴当处理大数据集时,基于主存的粗糙集属性约简算法的效率将会显著下降。针对这一问题,本文利用数据库技术处理大数据集问题的优越性,提出了一种基于存储过程的属性约简算法。实验结果表明,对于处理大数据集问题,该算法的效率要比基于主存的属性约简算法的效率高,而且该算法容易实现,具有一定的实用价值。⑵目前大部分的属性约简算法采用结构化方法实现,但是缺乏统一的数据模型,针对这一问题,本文采用面向对象理论来分析Rough集的研究对象,设计了一种用于属性约简的对象模型,并使用面向对象数据库DB4O对此进行建模。⑶在传统的粗糙集理论的基础上引入面向对象数据库,提出了一种基于面向对象数据库的粗糙集模型。⑷深入探讨了实现属性约简算法的关键技术,并开发了一个专业数据处理软件系统--基于面向对象数据库的粗糙集模型的属性约简系统,用于验证上述研究成果。