基于进化计算的特征选择方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:xzcfjeom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是特征工程中的一个重要问题,是缓解“维数诅咒”的有效方法。随着大规模数据在各个领域的不断涌现,如何从高维数据中快速有效地识别关键特征,对鲁棒模型的构建,以及进一步从关键特征中发掘出隐藏信息,有着重要的社会价值和现实意义。本文的主要贡献在于针对特征选择问题改进差分进化算法和灰狼优化器,为缓解“维数诅咒”困境提供新模型、新方法。具体地,一种基于自适应机制的加权差分进化算法(Sa WDE)被提出用以处理大规模特征选择问题。该算法采用多种群机制和自适应机制,并在此基础上设计了一个衡量特征重要性的权重模型。在24个高维数据集上的实验结果表明,Sa WDE在训练和测试数据集上与12种经典方法相比具有更优异的表现。同时,Sa WDE算法在大多数情况下可以减少75%到80%的特征。进一步的,一个名为进化优化多样化集成(EODE)的框架被提出以用于生物信息领域。该框架利用灰狼优化器来优化特征子集,寻找关键基因,然后以协作的方式创建一个优化的集成分类器,实现癌症类型的精准分类。在35个癌症基因表达数据集上的实验结果显示,与六种基准机器学习算法、六种典型的集合算法、七种自然启发方法以及四种自然启发集合方法相比,本文提出的EODE更具优势。
其他文献
下呼吸道感染(Lower respiratory tract infection,LRTI)是一种严重危害人类健康的感染性疾病。LRTI危重病情多由细菌引发,且病原谱广泛,因而临床上迫切需要一个全面的检测组以实现LRTI细菌的快速、准确诊断。基于此,本论文发展了一种基于液滴编码-配对的微流控多重数字化环介导等温扩增(Loop-mediated isothermal amplification,LA
学位
当前,逐渐增强的细菌耐药性已成为全球性的公共健康问题。耐药性细菌感染不仅会延长治疗周期和增加治疗花费,还会显著增加病死率。造成细菌耐药性增强的一个重要原因是抗生素滥用,因此合理使用抗生素成为了一个迫在眉睫的问题。临床工作中通过抗生素敏感性测试(Antimicrobial Susceptibility Testing,AST)来指导抗生素的选择。但是,常规AST方法普遍存在测试时间较长的问题,难以满
学位
锥栗是我国的经济林树种之一,其果实营养丰富,深受大众喜爱。本文选取了两个具有代表性的锥栗品种“金锥(YS)”和“白岩一号(WS)”,探究锥栗果仁发育过程(S1、S2、S3和S4时期)中淀粉和微量营养素(维生素E、类胡萝卜素和多酚)的代谢变化规律。另外,考虑到新鲜锥栗不耐储藏的特性,本文进一步探究了水煮和烤制两种热加工处理方式对成熟锥栗果仁中淀粉和微量营养素的影响规律。研究结果如下:(1)探讨了锥栗
学位
随着下一代测序技术的发展,单细胞RNA测序(scRNA-seq)已成为揭示细胞间广泛异质性不可或缺的工具。聚类是揭示单细胞转录组谱的一项基本任务,也是受到广泛关注的关键计算问题。最近,针对scRNA-seq数据研究者们开发了许多聚类算法,其中包含一些结合数据降维和深度学习的聚类方法。然而,由于scRNA-seq数据低维潜在空间的特征表示不稳定,与降维相结合的深度学习聚类方法仍然不能产生稳健的聚类效
学位
会话中的情感识别在意见挖掘,人力资源,医疗保健等不同的领域逐渐得到了广泛的应用,对于许多人工智能相关的应用来说,是不可或缺的一部分。通过分析会话中的文本识别出会话中每一句话语的情感,依据不同的情感状态做出适当的反馈,可以让机器智能来帮助人类更好的进行工作,对于各领域的信息化发展与智能化发展有着深远的影响和积极意义。虽然目前的会话情感识别方法已经取得极佳的效果,然而,现有的方法无法很好的整合文本情感
学位
根因定位是网络故障管理中的关键过程,旨在从一系列观察到的故障现象中推断出根因的确切来源。解决根因定位的现有方法有些基于逻辑规则,有些基于机器学习。然而,随着通信网络变得更加复杂,知识驱动的基于逻辑规则的方法面临着效率低下和缺乏灵活性的问题。数据驱动的机器学习方法则由于依赖大规模训练集和缺乏可解释性,并未被业界广泛接受。本文尝试将根因定位中知识驱动的方法与数据驱动的方法结合——同时利用两种方法的优势
学位
面粉作为小麦的主要产物,因其良好的加工性能,成为我国主要的主食品种。但是,我国目前生产的面粉主要以中低筋面粉为主,随着人们生活水平的提升以及对食物健康的愈加关注,高品质的面制品逐渐被大众所青睐。添加改良剂成为一种重要的加工方法。聚3-羟基丁酸酯(PHB)是存在于微生物体内的天然产物,其降解产物3-羟基丁酸(3HB)具有多种生理功能。PHB具有与面粉乳化剂类似的两亲性结构,初步试验发现其能改善面粉粉
学位
癌症一直是人类健康的巨大威胁。现代社会中,更多的外在因素成为了恶性肿瘤的发病诱因,但是癌症最根本的发病原因体现在基因的变化上。通常,癌症是通过发病的组织来源进行命名,但是同一部位的癌症会由于内在基因表达水平不同,具有不同临床表现,这种异质性使得同一部位的癌症分为不同亚型。为了提高癌症的治愈率,需要根据每个亚型制定合适的诊断与治疗方案。辨别癌症的亚型被认为是个体化治疗的关键和具有挑战性的步骤。现有的
学位
图数据在生物、化学信息学等领域有许多关键应用,如分子属性判断,新药发现等。图这种数据结构还可以用来表示关系型数据,比如社交网络、知识图谱等。图结构数据因为其强大的表示能力,受到越来越多研究人员的重视,使用图神经网络(Graph Neural Networks,GNN)从图数据中学习到的高质量的节点嵌入和图嵌入被广泛应用于图数据分析中,例如节点分类、连接预测以及图分类等问题。将CNN的卷积原理应用到
学位
甜菜红素是一种天然色素,广泛存在于红甜菜和火龙果皮及果肉之中。甜菜红素的主要成分甜菜红苷(Betanin,Bt)具有诸多功能特性,且被欧盟批准为红色食品着色剂,被广泛用作果酱、冰激凌、蛋糕等食品着色。但甜菜红苷易受温度等因素的影响,稳定性较差,目前研究通过小分子辅色、微胶囊化等方法改善甜菜红苷稳定性,虽有一定效果但存在诸多缺陷和安全隐患。本论文选用乳蛋白中的乳清蛋白(Whey Protein,WP
学位