面向结构数据的管道分层并行遗传自动模型构建研究与应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:peng737
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,机器学习技术已经深深扎根于人们的日常生活中,并且已经应用到几乎所有的应用领域。然而,构建一个高质量的机器学习模型是一个迭代、复杂、耗时的过程,同时这个过程需要大量的专家知识去尝试各种算法和技术。随着现实生活中数据量的不断大幅增长,人们已经认识到纵使知识渊博的数据科学家也无法应对这些挑战。因此,自动构建良好的机器学习模型是至关重要的。在最近几年时间里,一些技术和框架被引入来解决机器学习领域中自动化组合算法选择和超参数调优。这些技术的主要目的是减少人在整个模型训练过程中的作用,并通过扮演领域专家的角色来填补非专家机器学习用户的空白。本学位论文主要研究自动机器学习领域中的集成式自动模型结构搜索,研究并实现了管道分层并行自动模型构建技术,通过并行遗传算法将传统机器学习建模中的各个组件集成为一种自动化机器学习模型,其中包括自动特征工程、自动超参数优化以及自动模型选择等。通过管道并行的方式自动集成整个机器学习建模过程,可以同时实验多个不同模型,最终在没有人工干预的条件下更快更好的生成一个最优模型。在自动机器学习模型结构搜索的研究过程中,本学位论文研究并设计了一种管道分层并行遗传自动模型构建技术,通过该技术研究实现了一种基于Dask并行遗传算法的集成式自动机器学习建模框架,提出了将特征工程、模型选择、模型评估等机器学习算法组合成树形结构,然后将树形结构定义为一个管道,接着结合遗传算法的全局优化的特点,设计了分层并行遗传算法,重新定义了管道之间的交叉、选择和变异操作。在工程开发上,提出了利用Dask加速优化的集成式自动机器学习建模方案,结合Dask对大数据文件的处理以及支持动态分布式并行运算,极大缩短了运行时间提高了效率。在实验验证上,将设计的自动机器学习框架在从PMLB和UCI数据库中共选择的九个分类数据集上进行了实验,并与其他算法进行了比较。实验结果表明,本学位论文提出的管道分层并行自动模型构建技术在测试数据集上的分类效果模型精度优于传统机器学习方法和其他同类自动机器学习方法。最后,在总结本学位论文所有工作的同时对需要完善改进和深入研究的地方进行了展望。
其他文献
四环素(TC)作为一种广谱性抗生素,应用非常广泛,但对水生态系统也造成了严重污染。光催化技术能够去除水体中的TC,但依然存在处理效率低,光生电子空穴对复合速率快等问题。本论文尝试通过对光催化剂BiOI进行改性修饰,合成BiOI/g-C3N4异质结,提高其电子和空穴分离效率,进而改善其光催化效果;同时结合利用光化学、电化学和微生物学理论,将光催化技术与微生物燃料电池技术相结合,构建生物光电化学(BP
学位
随着中药行业不断发展,中药渣全国年排放量已超过6000万吨,且逐年增加,中药渣污染问题亟需解决。与常用的堆肥处理等方式相比,热解技术能够实现中药渣的无害化处理和能源回收利用。本研究重点关注中药渣热解处理技术,探究热解参数对产物(可燃气、生物油、焦炭)产率、组分及热值的影响,优化热解工艺,追踪与评估热解过程中污染物释放特性。热失重分析表明中药渣的主要热失重范围为650℃~850℃。基于此,选取原料含
学位
建筑能耗占全部能耗的32%,开关窗对建筑能耗的预测十分重要,此外,对自然通风的建筑物来说,开关窗对调节室内空气质量也起着至关重要的作用。而开关窗的人行为受多种驱动因素影响,性能优异的开关窗模型有助于提高模型的预测正确率,帮助研究者更好地预测建筑能耗。因此,为了更好地了解居住者何时打开/关闭窗户,构建一个能够预测居住者开窗行为的模型是很有必要的。当前,随着人工智能的火爆,很多研究者使用了各种机器学习
学位
报纸
随着能源危机的不断加剧和建筑能耗的不断增长,对于全社会能耗而言,建筑能耗约占总能耗的20%左右,因此,建筑节能在可持续发展战略中至关重要。而居住建筑作为人们生活中必不可少的场所,人们对居住建筑内舒适性要求的提高导致了相应能耗的增加,因此,控制居住建筑能耗已成为节能减排政策中重要的组成部分,而提前进行未来居住建筑能耗预测,有利于政府制定政策进行宏观调控,也有利于社会节能技术的进一步提升。为预测未来能
学位
随着我国经济社会快速发展,城市河流的水污染问题也在不断加剧。受污染河水的生物净化是应用最为广泛的河道净化方法之一。氮素污染物是引起河流富营养化的重要因素,因此高效脱氮是河水生物净化的研究热点之一。然而实际河水中很难同时满足传统生物脱氮过程中的好氧和缺氧条件,因此在好氧条件下既能进行硝化作用又能进行反硝化作用的异养硝化-好氧反硝化菌引发了广泛关注。目前利用异养硝化-好氧反硝化进行脱氮研究的报道大多是
学位
将城市污水进行再生利用是有效节约淡水资源、减少污水排放的有效措施。而磷作为二级出水中最丰富的污染物之一,如果不进行深度处理来严格控制排放量,将导致地表水富营养化的发生。此外,传统的水处理工艺难以去除水中的药品与个人护理品(PPCPs),这些PPCPs排放到环境中将会对人体健康及生态环境造成严重的危害。本文针对某再生水厂混凝气浮-超滤-反渗透各再生水工艺单元中总磷(TP)、COD和七种PPCPs进行
学位
三氯乙烯(TCE)是污染场地中一类常见的有机污染物,已被我国列入有毒有害污染物名录。TCE在地下水中具有较强的迁移能力,且难以自然降解,对地下水环境安全和人体健康存在威胁,亟需有效的修复技术来处理地下水中TCE污染。零价金属已被证明可用于污染物还原降解,其中,零价镁(ZVMg)作为一种还原能力较强的修复剂,已有研究证明其在有机溶剂体系中能降解多种有机污染物,但直接利用ZVMg降解水溶液中TCE的研
学位
<正>在北纬30度线上,有许多奇特的地方,如大西洋上的百慕大三角区、埃及大沙漠中的金字塔、世界上最深的海沟马里亚纳海沟和最高的山峰——珠穆朗玛峰等等,被称为"江南第一古县城"的慈城也恰恰在这个位置上。
期刊
随着化石能源的不断消耗,人们对于清洁能源的需求日益迫切,能源的储存与利用已经成为研究热点。储存与利用能源的同时兼顾环境的可持续发展是当今人类追求生产力发展与环境生态可持续的重要课题。超级电容作为一种潜力巨大,环保高效的储能设备,近些年来持续受到研究与关注。生物质废弃物每年产量巨大,利用生物质制备的生物炭材料在众多领域得到了普遍应用。其中生物炭用于超级电容的电极材料近年来受到广泛关注。本文利用KOH
学位