Weka平台下电商系统的决策算法研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:ponsan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会伴随信息产业和技术的迅猛发展,互联网技术和应用已经成为信息传递的最主要手段和平台,而随着数据库应用的规模、范围和深度不断扩大,数据挖掘工作变得尤为重要。数据挖掘集合了机器学习、模式识别、统计、数据库等技术,广泛运用在电子商务系统、银行信用系统、保险行业、电信业务系统、医疗系统等方方面面。而决策树分类算法是数据挖掘算法体系中比较常用也较为经典的算法。决策树分类算法体系有很多种算法,包括比较经典的ID3、C4.5、CART算法等,当前形势下,对算法效率的提升,是一个很重要的研究课题。本文在学习决策树分类C4.5算法的基础上,以C4.5V1算法为研究重点,在此基础上,展开进一步的研究和创新。首先,充分学习分析了数据挖掘平台WEKA的功能和系统框架,在该平台下对各经典算法进行数据演练和性能评估,遵照决策树分类算法性能的评价标准,对各算法性能进行比较和分析。其次,对C4.5算法进行深入研究,并且设计出算法系统的模块组成部分,实现了代码,集成到Weka平台下。使用网上公开的用于数据挖掘的数据集进行测试,与经典的C4.5进行性能上的对比,验证了C4.5V1算法很好地集成到Weka平台下,且性能明显优于经典算法。不足的是,建模时间复杂度却增大了。接着,本文在C4.5V1算法的基础上,提出了改进的C4.5V2算法和C4.5V3算法,分别从算法的分类准确率和算法的建模时间两个方面进行了改进。C4.5V2算法通过引入属性间冗余度的概念,削弱了其他属性对当前属性的分类影响程度,从而提高了算法的分类准确率。但与此同时,C4.5V2算法在建模时间上有了更多的消耗,它的准确率的提高是以牺牲建模时间为代价的。改进的C4.5V3算法很好地解决这一问题,通过将公式中大量的对数运算简化成四则运算,简化了算法体系的计算过程,从而极大地压缩了算法的建模时间。最后,将改进后的C4.5V2、C4.5V3算法实现代码化,集成到WEKA平台下,进行算法性能测试,同时,应用到电商系统的数据集中,分别使用C4.5算法以及改进的各个版本,在分类准确率和算法建模时间两个方面作详细对比,实验证明提出的改进算法分别在准确率和时间复杂度上有所改进。
其他文献
随着环境污染的压力日益增大,电动汽车作为新能源的后起之秀代表着汽车行业节能、环保的发展方向。动力电池作为纯电动汽车的核心零部件,它的各项关键参数都对其自身的发展有
随着光纤通信技术和微电子技术的飞速发展,光电集成的研究成为当今世界前沿研究的热点。而其中关键的一环,就是要研制出一种能满足光互联技术要求的实用光源。硅是微电子技术的
LDPC码,又称低密度奇偶校验码。在现存的编码方法中,它能很好地接近香农极限编码性能;在译码性能方面,它拥有相对简单的译码算法,错误码字无法检测的概率几乎为零,因而LDPC码
随着面向服务概念的提出,目标物体的位置信息对于系统应用越来越重要。尤其在仓储物流环境中,物品的实时位置信息对于物品的监控和管理起着十分重要的作用。目前应用最普遍的