论文部分内容阅读
关于粗糙集方法,我们研究两个基本的问题—属性约简和离散化.具体来讲,包括以下内容:(1)属性约简:在一个信息系统中有成千上万条记录,但是对于信息系统的分类或者规则推理来说,其中一些属性往往是多余的.他们对于系统的分类质量或者规则推理不起任何作用,这时就需要我们对信息系统进行属性约简,去掉这些多余的属性,简化信息系统.针对这个问题,该文从集合覆盖的角度讨论属性约简,在集合覆盖和属性约减之间通过构造一个一一映射,将粗糙集中的属性约简问题转化成集合覆盖问题,这样使得我们能够利用成熟的集合覆盖的相关理论来解决属性约简问题.(2)离散化:在信息系统中,有些情况下,我们得到的数据的一些属性值是实值数据,这样有可能使得很少的对象有相同的属性值,因而等价类的数量会增大,而每个等价类里面的对象会很少,这样就导致大量的规则生成,使得分类效率下降,所以为了处理问题的需要,我们需要将这些数据进行离散化.关于粗糙集理论中的离散化,Nguyen S.H在他的论文里已经做了详细的描述,同时提出MD算法.该文在此基础上,做了进一步的研究,提出一种新的离散化方法—渐进式离散化算法.由于我们的方法是渐进式的,一旦数据库更新,应用该算法不需重新对整个数据库进行遍历,适合动态数据挖掘,同时我们也通过实验证明渐进式方法无论在时间复杂度还是空间复杂度上都比传统的MD算法好,该方法占有较少的内存资源,同时离散的质量高.关于遗传算法,我们主要讨论以下两个方面的内容:(1)运用遗传算法解决粗糙集中的属性离散化问题,该算法从优化的角度来研究离散化问题,使得我们能够得到较好的近似解.在算法设计过程中,我们运用多种优化策略,包括传统的父子混合策略等等,同时根据离散化的特点,提出了一种新型策略—罚函数策略,运用此策略,我们能够淘汰不完全染色体,加快了计算速度同时增加结果的准确性.总之,对于粗糙集中属性离散化的问题,我们从不同的角度提出了两种方法:渐进式算法和遗传算法,这两种方法各有优点,所以我们根据不同的情况运用不同的方法.(2)运用遗传算法分析股票时序数据,建立了一个股票市场的决策模型,根据各种指标计算买入信号,运用遗传算法对这些信号进行计算,得出最佳卖出方案,从而我们就得到了一个股票买入—卖出方案.运用实际数据进行测试,结果表明,通过我们的方案来操作,平均盈利比传统的买入—卖出方案多1.2﹪.最后我们根据该模型设计了一个简单的模拟软件,帮助分析股票市场.最后,我们对论文做了一个总结,同时提出了未来需要继续研究的几个问题.