【摘 要】
:
在数据挖掘问题中,一个基本假设是训练集样本与测试集样本的数据分布一致,但随着数据量逐渐增加,如何在海量数据中找出具有代表意义的数据也变得尤为困难。对现有的数据选择
【机 构】
:
中南大学地球科学与信息物理学院,中南大学软件学院
【基金项目】
:
国家自然科学基金(61602525);中南大学2017年本科生自由探索项目(201710533267,ZY20170769)
论文部分内容阅读
在数据挖掘问题中,一个基本假设是训练集样本与测试集样本的数据分布一致,但随着数据量逐渐增加,如何在海量数据中找出具有代表意义的数据也变得尤为困难。对现有的数据选择方法研究发现,传统的简单随机抽样和渐进抽样等数据选择方法,由于没有和数据挖掘工具进行结合,采样结果具有偶然性和不确定性,抽样数据很难保证数据挖掘的基本假设,这也使得最终模型的泛化误差较大。为了解决数据采样过程中类间的不平衡问题,提出一种基于双决策树的结构化数据采样方法。首先通过C4.5算法生成一棵决策树,借助决策树在数据源中选择适合的数据和数据采集点,同时通过使用另一棵决策树对选择出的数据集的质量进行评估来达到高效率和高质量的数据采样。实验表明,与简单随机抽样相比,新采样数据下训练的模型准确率有明显提高。
其他文献
目的:探讨内镜处理肝移植术后胆道并发症的临床效果。方法:回顾性分析3例肝移植术后不同类型的胆道并发症行内镜逆行性胰胆管造影诊治情况并随访10年。结果:3例患者肝移植后
通用机械:请问谢总,武汉亚美是怎样的一个情况,经过这么多年,亚美在国内的阀门市场的发展如何.
目的:探讨右美托咪啶对开胸手术患者术后芬太尼自控静脉镇痛效果的影响。方法:ASAⅠ~Ⅲ级择期行开胸手术患者40例,随机分成2组,术后均行静脉自控镇痛(PCIA),镇痛药配方为芬太
<正> 1928年5月3日,在南京国民政府指挥的第二次北伐途中,日本帝国主义者悍然制造了震惊中外的“济南惨案”。这一事件,是蒋介石政权建立后,中日两国重大冲突的先声,亦是蒋政
大夏河作为黄河在甘肃境内的主要汇集支流之一,既是流域主要生活饮用水水源地,又是沿岸城乡的重要纳污水体,是临夏回族自治州和甘南藏族自治州经济社会发展的重要命脉。随着
目的:调查蚌埠禹会区60岁以上居民对社区卫生服务中心/站知晓率、利用率及满意度,为合理配置医疗卫生资源提供依据。方法:采用分层整群抽样法,抽取蚌埠市禹会区60岁以上常住
旨在探明新疆荒漠绿洲稻区特殊生境下稻水象甲的空间分布格局及抽样技术,为该虫情预测预报及田间有效监测提供科学依据。应用扩散系数进行t检验,以丛生指数Moore I、平均拥挤
目的探究非ST段抬高急性冠脉综合征患者尿微量白蛋白测定和血清胱抑素检测意义,旨在为临床诊断提供参考资料。方法选取2013-01—2014-01间就诊的非ST段抬高急性冠脉综合征患
随着我国钢结构技术的发展和建设中对桥梁结构的需要,城市桥梁建设中钢结构已经被广泛得到应用。为加大对大跨度钢箱梁吊装施工技术研究,结合成都二环路高架桥工程,介绍了城
研究了硝酸脲制备过程中可控因素的影响以及固体硝酸脲的晶体形状、吸湿性、水溶液的酸性、X射线衍射图、核磁共振图、红外图谱。实验表明硝酸脲制备过程中的主要影响因素为: