【摘 要】
:
随着大数据时代的到来,数据所蕴藏的价值逐渐凸显,各行业多年来所累积的数据都具有巨大的挖掘潜力,于是数据挖掘技术飞速发展,每一个精准的数据分析结果都能带来巨大的行业收益。为了能更快更准确地得到数据分析的结果,数据挖掘算法就成为了我们的重点研究对象。针对传统C4.5算法面对大量多维连续型属性值时,传统离散化方法易造成分类准确度不高、算法运行效率低下的问题,本文提出了两种连续型属性值离散化的方法,第一种
论文部分内容阅读
随着大数据时代的到来,数据所蕴藏的价值逐渐凸显,各行业多年来所累积的数据都具有巨大的挖掘潜力,于是数据挖掘技术飞速发展,每一个精准的数据分析结果都能带来巨大的行业收益。为了能更快更准确地得到数据分析的结果,数据挖掘算法就成为了我们的重点研究对象。针对传统C4.5算法面对大量多维连续型属性值时,传统离散化方法易造成分类准确度不高、算法运行效率低下的问题,本文提出了两种连续型属性值离散化的方法,第一种是十等分离散化方法,将连续型属性值进行排序后取十等分点处的值作为候选分裂点进行计算;另一种是由K-means算法进行连续属性数据离散化的方式,首先通过将无特征标志的连续型数据与对应类标号结合生成数据子集,通过K-means算法生成若干簇,再取簇的近似边界点作为连续型属性的候选分类点进行信息增益率的计算。实验结果表明,与传统C4.5算法相比,在十等分离散化模式下的C4.5算法具有更高的执行效率,基于K-means算法的离散化模式使C4.5决策树模型拥有更高的分类准确度。
其他文献
李华章一直潜心散文创作,长年不辍。其散文集《江河长流》同样承载了他有关故乡以及创作的风骨。这部书于2016年8月由现代出版社出版,遴选了华章先生2014至2016年期间发表的散
随着社会的发展和科技的进步,机械工业对产品的要求不断提高,传统的加工方式无法满足要求,与现代科技高度融合的机械自动化技术应运而生。文章联系机械自动化的产业实际,总结
以固体氧化物燃料电池(SOFC)电解质的研究为例,具体介绍了基于Zview软件和Origin8.5软件对交流阻抗实验数据进行处理和分析的方法。通过等效电路处理可区分电解质的晶粒电阻、
阐述了工程项目管理课程教学与建设管理类执业资格考试相结合的必要性,以及存在的问题,并从教学课程大纲修订、教材选择、授课方法和考核方法等方面进行了探讨,以期培养出合
教育部明确提出高职高专教育要培养德智体美等方面全面发展的高等技术应用性专门人才,而作为衡量人才培养质量重要指标的人际沟通能力往往不能满足企业用人需求,笔者在教学中
美育与体育有着十分密切的关系,体育是美育的形体,美育是对体育的彰显。它能够让学生发现、欣赏和创造体育中动作美、形体美等,有利于学生通过体育运动去塑造美和创造美。现
<正> 卫气营血辨证为清代著名温病学家叶天士所创,为“温病”辨证施治的理论依据,对于急性传染性及感染性疾病的治疗,有着重要的指导作用。近年来随着中医药治疗急症工作的深
目的:研究妇炎舒胶囊和抗生素联合应用对慢性盆腔炎的临床治疗效果。方法:85例慢性盆腔炎患者,将其随机分为联合组(43例)和对比组(42例)。对比组采用抗生素治疗慢性盆腔炎,联
目的探讨循证护理在急性心肌梗死并发心律失常患者护理中的效果。方法抽取90例急性心肌梗死并发心律失常患者进行分析,将其随机分为常规组和护理组,各45例,常规组患者给予常
古地震学启蒙于 19世纪晚期 ,现代古地震学则形成于 70年代末 .我国的古地震学经历了起步、发展和走向成熟 3个阶段 .古地震学在探槽技术、识别标志、测年方法和理论模型等方