论文部分内容阅读
当今社会伴随信息产业和技术的迅猛发展,互联网技术和应用已经成为信息传递的最主要手段和平台,而随着数据库应用的规模、范围和深度不断扩大,数据挖掘工作变得尤为重要。数据挖掘集合了机器学习、模式识别、统计、数据库等技术,广泛运用在电子商务系统、银行信用系统、保险行业、电信业务系统、医疗系统等方方面面。而决策树分类算法是数据挖掘算法体系中比较常用也较为经典的算法。决策树分类算法体系有很多种算法,包括比较经典的ID3、C4.5、CART算法等,当前形势下,对算法效率的提升,是一个很重要的研究课题。本文在学习决策树分类C4.5算法的基础上,以C4.5V1算法为研究重点,在此基础上,展开进一步的研究和创新。首先,充分学习分析了数据挖掘平台WEKA的功能和系统框架,在该平台下对各经典算法进行数据演练和性能评估,遵照决策树分类算法性能的评价标准,对各算法性能进行比较和分析。其次,对C4.5算法进行深入研究,并且设计出算法系统的模块组成部分,实现了代码,集成到Weka平台下。使用网上公开的用于数据挖掘的数据集进行测试,与经典的C4.5进行性能上的对比,验证了C4.5V1算法很好地集成到Weka平台下,且性能明显优于经典算法。不足的是,建模时间复杂度却增大了。接着,本文在C4.5V1算法的基础上,提出了改进的C4.5V2算法和C4.5V3算法,分别从算法的分类准确率和算法的建模时间两个方面进行了改进。C4.5V2算法通过引入属性间冗余度的概念,削弱了其他属性对当前属性的分类影响程度,从而提高了算法的分类准确率。但与此同时,C4.5V2算法在建模时间上有了更多的消耗,它的准确率的提高是以牺牲建模时间为代价的。改进的C4.5V3算法很好地解决这一问题,通过将公式中大量的对数运算简化成四则运算,简化了算法体系的计算过程,从而极大地压缩了算法的建模时间。最后,将改进后的C4.5V2、C4.5V3算法实现代码化,集成到WEKA平台下,进行算法性能测试,同时,应用到电商系统的数据集中,分别使用C4.5算法以及改进的各个版本,在分类准确率和算法建模时间两个方面作详细对比,实验证明提出的改进算法分别在准确率和时间复杂度上有所改进。