论文部分内容阅读
数据挖掘作为是人工智能的一个分支,正逐步的被应用到各个方面,从初级应用到目前的大量而广泛的应用,人们对此学科的发展,耗费了许多努力,提出了许多研究方法,极大的发展了这门学科。在发展的过程中,数据挖掘针对不同应用,分别发展出聚类、分类、关联规则等不同的挖掘方法。在初期的关联规则的研究过程中,大部分集中在支持度-置信度阈值的研究上,但在实际应用过程中,易产生许多虚假误导的规则。为此关联规则的生成在考虑支持度和置信度阈值的同时,还需引入兴趣度度量,来检验结果是不是具有价值。目前许多人提出了不同的兴趣度度量方法,但并没有被广泛接受的兴趣度度量标准,在此研究的方面仍需要完善。因此,针对传统支持度-置信度这一框架不足这一问题,结合对部分已有兴趣度度量进行分析研究,提出了新的兴趣度的度量,并用实例证明了该度量的有效性。同时在利用兴趣度挖掘有价值的正负关联规则时,负关联规则的有效挖掘面临着规则爆炸问题,虽然人们已经从不同方面提出了挖掘正负相关关联规则的算法,但对减少负关联规则爆炸性问题仍有许多问题未解决。文中从减少非频繁项的角度,结合新的兴趣度度量,引入了最大支持度模型,提出了一种挖掘正负关联规则的算法,并通过Mushroom数据集上的实验证明具有减少无关规则和误导规则的有效性能。由于负关联规则不仅需要规则有意义而且还应具有可读性,因此本文在已有挖掘算法上更进一步提出了一种新的负关联挖掘算法,不仅可以大幅减少无关和误导的规则,而且通过实验与已有算法相比还具有良好的可读性。在最后,本文将改进的算法应用到股票间涨跌联动的研究之上,研究股票个股与个股之间涨跌之间的正负关联关系,一方面通过此实例验证验证算法的实用性,另一方面也在研究中获得了一些有价值的关联规则。