【摘 要】
:
针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率C4.5算法——IP-C4.5算法。在
【机 构】
:
东北林业大学信息与计算机工程学院,黑龙江省林业生态大数据存储与高性能云计算工程技术研究中心
【基金项目】
:
国家自然科学基金资助项目(31370565);哈尔滨市科技创新人才研究专项资金资助项目(2013RFXXJ089)
论文部分内容阅读
针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率C4.5算法——IP-C4.5算法。在训练模型时,IP-C4.5算法认为用于建树的训练集是不可靠的,通过用基于不确定概率的信息增益率作为分裂属性选择标准,减小了训练集的嘈杂性对模型的影响。在Hadoop平台下,通过将IP-C4.5算法以文件分裂的方式进行MapReduce化程序设计,增强了处理海量数据的能力。与C4.5和完全信条树(CCDT)算法的对比实验结果表明,在训练集数据是嘈杂的情况下,IPC4.5算法的准确率相对更高,尤其当数据嘈杂度大于10%时,表现更加优秀;并且基于Hadoop的并行化的IP-C4.5算法具有处理海量数据的能力。
其他文献
<正> 已故张华甫主任医师是河南省名老中医,临证40余年,学验俱丰,对男科病有独特治疗经验。现举验案3则如下。1 阳萎 陈某,48岁,已婚,1992年2月13日初诊。患者自诉近3年来同
当前我国社会利益冲突加剧,法院的司法工作面临前所未有的挑战。法官员额制度是推进法官职业化建设的重要突破口,也是现阶段司法体制改革的题中之义。现行法官制度存在人数多
综述糖蜜废液的综合利用现状,介绍主要的治理和利用途径。指出资源化与污染治理相结合。是此类废水治理的理想方法。
<正>目前,老旧小区已经成为北京"世界城市"建设步伐中的短板,因此解决和改善老旧小区市政配套基础设施建设问题已迫在眉睫,而当中电力设施的升级改造又尤为重要电力发展关系
建设社会主义新农村是我国现代化进程中的重大历史任务,加强农村环境规划是加快新农村建设的重要措施之一,但是在实际建设中农村环境规划还存在很多问题。以洞庭湖区农村环境
本文对那些通过财政和货币政策发挥作用的宏观经济要素的重要性做了研究,并探寻了可能影响20世纪90年代日本经济危机的货币传导机制。经验分析表明,在20世纪90年代实际政府消
工业界、学术界,以及最终用户都急切需要一个大数据的评测基准,用以评估现有的大数据系统,改进现有技术以及开发新的技术。回顾了近几年来大数据评测基准研发方面的主要工作
航空γ能谱测量是将γ能谱仪器安装在飞机上探测地面介质辐射的γ射线,并换算出地面放射性元素视含量的一种航空地球物理探测方法,该技术是开展区域性地球物理调查的主要方法之
目的分析阴沟肠杆菌感染的临床分布及其产AmpCβ-内酰胺酶(AmpC酶)和超广谱β-内酰胺酶(ESBLs)的情况,为临床合理使用抗生素提供依据。方法对医院近3年临床分离出的阴沟肠杆
通过测查、观察、问卷与访谈的方法对8名个案儿童的书面数符号表征能力的发展进行中、大班两年的跟踪研究表明:个案儿童的书面数符号表征能力在两年中有了不同程度的进步,但