基于SVM集成学习的miRNA靶基因预测研究

来源 :燕山大学 | 被引量 : 1次 | 上传用户:snowpine15505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们近年来发现一类对生命体具有重要调节功能的非编码内源性RNA分子-Micor RNAs(mi RNA)。mi RNA是一类大小长约20~25个核苷酸,其5’端带有磷酸基因、3’端带有羟基的非编码单链小RNA生物分子。它通过与靶基因m RNA 3’UTR(untranslated regions)区域碱基互补匹配和相互作用,在后转录时期发挥重要的基因调控功能。mi RNA广泛存在于真核生物细胞内,通过对mi RNA靶基因的表达调控,在细胞生长、发育、分化、代谢等生命活动中发挥着重要作用。mi RNA靶基因预测是研究和分析mi RNA分子生物学功能的重要组成部分,也是深入研究mi RNA作用机制的关键。基于支持向量机(Support Vector Machines,SVM)理论,针对mi RNA靶基因样本数据不平衡,导致阳性样本预测准确率低和整体分类效果不佳的问题,提出基于欠采样技术的集成学习算法,以提高mi RNA靶基因预测模型的分类识别准确率和泛化能力。论文主要研究三个方面的问题:数据集特征选择方法;与欠采样相结合的集成学习模型建立;mi RNA靶基因预测模型惩罚参数和核函数参数优化。针对mi RNA靶基因绑定结构的特征,在识别范围量化标准基础上,提出了基于分类间隔的特征选择算法SVM-FSCI。构建了mi RNA靶基因预测模型的性能,按照每个特征对支持向量机分类间隔的贡献,定义了特征有效率,对原始提取的特征向量集以特征有效率为标准进行排序,删除冗余和低效特征,最终得到优化后的特征向量子集。针对mi RNA靶基因样本数据集不平衡,导致阳性样本预测准确率低和整体分类效果不佳的问题,提出了基于欠采样技术的集成学习算法SVM-IUSW。算法采用SVM作为基本学习算法,以Ada Boost为集成框架,迭代过程中嵌入基于聚类的欠采样,以降低阴、阳样本数据分布不平衡程度,同时在自适应样本权重调整过程中,以样本权重平滑机制剔除阴性样本中的异常点,最终以带权重的投票机制,组合多个弱分类器预测结果,构成mi RNA靶基因预测的集成分类器。(3)针对不同惩罚参数的支持向量机,在分类不平衡靶基因数据集时效果不同的问题,提出了基于数据集分布平均密度求取惩罚参数的SVM-DODN算法;在此基础上采用自适应混合遗传算法,对mi RNA靶基因SVM模型核函数和惩罚参数进行优化,共同弥补不平衡样本空间造成的样本偏斜问题。提出了基于分类间隔的特征选择算法、基于欠采样技术的集成学习算法和自适应混合遗传算法,解决了mi RNA靶基因预测过程中出现的数据集特征提取及其特征选择、靶基因预测模型的构建和靶基因预测模型参数优化三个方面出现的问题。仿真实验表明,与其他算法相比,论文所提出的基于SVM的集成学习预测mi RNA靶基因算法,在解决mi RNA靶基因样本不平衡问题时具有很好的学习和泛化能力。
其他文献
目前高等教育也在逐渐普及,但费用较高,对于一些贫困地区的学生来说,上大学就有些遥不可及了,所以国家出台了生源地助学贷款,让更多的学生能接受高等教育,回馈社会,报效祖国。
无痛人工流产(简称人流)因住院时间短,痛楚较小,术后恢复快,很受那些因避孕失败而又怕痛苦患者的欢迎。我院自2002年4月~2010年4月间,共收治3 680例实施无痛人流的患者,现报告如
【正】 宋词,在我国文学史上历来和唐诗相并称,是代表一个时代的文学样式。但是,平心而论,宋词所达到的成就(这里主要指的是思想内容方面的成就)是及不上唐诗和宋诗的。究其
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
两汉西域戊己校尉考余太山如所周知,戊己校尉的设置对两汉的西域经营起过十分重要的作用。但是,由于资料太少,有关戊己校尉本身的一些问题,虽经许多学者研究,迄今未能很好地解决。
目的:探讨瘢痕子宫再次妊娠后产后出血的危险因素。方法:回顾性分析2017年8月~2018年8月在东莞市三家二甲医院(南城医院、高埗医院、麻涌医院)行剖宫产的416例瘢痕子宫再次妊
腺样体肥大是儿童的多发病。腺样体肥大会阻塞患儿的咽鼓管,使其发生分泌性中耳炎、鼻腔通气障碍和鼻腔引流障碍等并发症。腺样体肥大患儿一旦被确诊后,需尽早对其进行治疗,
在分析实践中,有机污染物通常以痕量或超痕量存在于复杂基质中,分离和检测成为突出的问题。虽然近些年开发了许多灵敏度和选择性很高的仪器分析方法,但高效液相色谱技术仍然
紧紧把握大型军事活动的项目化属性,找出适合大型军事活动质量评价的类型,提出支持改进的大型军事活动质量评价分析参考模型,理清了质量评价的思路办法。本文弥补了一般性质
用FCG-内射模刻画了V-环、半单环、QF-环等特殊环.另外,还给出了FCG-遗传环是遗传环、FCG-内射模的子模也是FCG-内射模的条件.