【摘 要】
:
特征工程是数据挖掘项目中最困难、最耗时的任务之一,需要较强的专家知识。受限于计算复杂度,现有的特征工程技术倾向于使用有限数量的简单特征并在简单数据集上验证它们的方
论文部分内容阅读
特征工程是数据挖掘项目中最困难、最耗时的任务之一,需要较强的专家知识。受限于计算复杂度,现有的特征工程技术倾向于使用有限数量的简单特征并在简单数据集上验证它们的方法。但是这显然限制了特征工程的性能。本文提出了一种通用的自动特征工程框架AFEM。我们定义了复杂特征族,展示了这个框架覆盖了工程技术中使用的大部分现有特征,并允许我们高效地生成复杂特征族:特别的,我们为传统数据集和社交网络数据集使用了基于时间和社交网络的族以及特征的组合。通过每次引入一个特征族(自底向上)并选择最有优的特征族的方法来引入使用特征的过程,从而减轻了自顶向下方法的计算开销。我们在两个现实的数据科学竞赛和一个具有社会网络的推荐系统任务上验证了本文的方法。在前两个任务中,AFEM达到了人类团队的15名和12名;在最后一个任务中,它实现了 1.5%的回归误差减少。此外,本文还分析了在大数据和Web应用环境下,计算时间与特征/性能数量之间的平衡:在一个案例研究中,我们可以减少2/3计算时间,而AUC性能损失仅为0.2%。自动化特征工程主要的困难来自需要考虑的多种信息、潜在无限数量的可能特征以及特征生成和评估的时间成本。我们接下来提出了一个新的特征学习框架LAFEM,它把特征工程问题组织成一个异构变换图(HTG),然后通过深度Q-学习和RNN找到最优解。我们比较了 LAFEM和一些现有的自动有限元技术在120组大型数据集上的性能,表明LAFEM在大型数据集上的模型精度和时间效率几乎总是优于它们。
其他文献
目的:探讨宫腔灌注粒细胞集落刺激因子(G-CSF)对反复种植失败(RIF)患者临床结局的影响以及G-CSF对子宫内膜容受性产生影响的相关机制。方法:选取2018年1月至2019年6月在常德
针对ZQF216-110铁钻工牙板在长期高频、高负载工况条件下极易磨损的问题,采用阵列微结构表面技术,以提高其耐磨损性能。本文以提高牙板试件耐磨损性能为目的,开展了以激光制
植物microRNA(miRNA)是一类长18-24nt的非编码RNA,它们参与调控植物的生长发育,生殖与基因组重组,同时,microRNA也在植物响应生物和非生物胁迫、增强耐受能力过程中起着非常
随着我国基础建设步伐不断加快,不可避免地会遇到各种各样的边坡工程问题。在实际工程实践中,需要对边坡稳定性进行科学的评价,倘若未能保证边坡有足够的稳定性,边坡极易在如
目的:本研究为评估血管内超声(Intravascular ultrasound,IVUS)在冠状动脉慢性完全闭塞病变(Chronic total occlusion,CTO)介入治疗中在发现病变特点、指导支架选择、球囊扩
随着无人机在军事和民用领域的逐步推广应用,为提升无人机在复杂空中环境态势下的作业效率,保障无人机空域飞行安全,多无人机的协同作业变得尤为重要。无人机协同技术,提高无
菜心(Brassica rapa var.parachinensis)为十字花科芸薹属作物,是我国重要的叶菜类蔬菜之一,其口感脆嫩、营养价值丰富,受到广大消费者青睐,具有较高经济价值。菜心采收后,由
铝空气电池具有仅次于锂空气电池的理论比能量(8.14k W·h·kg-1),具有广阔的应用前景。然而,放电过程中铝阳极不均匀消耗和铝残渣的产生,导致电池存在稳定性和安全性的问题,
PON(Passive Optical Network,无源光纤网络)产品是当前主流的接入网数据通信设备,为了保证设备实际应用时功能的正确性和产品的可靠性,在产品交付之前需进行系统的测试。PON
随着光谱检测技术的发展,微型近红外光谱仪以其体积小、成本低、便于二次开发等优点,在航空航天、环境监测、工农业生产、石油化工、食品安全等领域获得广泛应用。论文针对重