全基因组关联研究中的模型构建与优化算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:beanmilk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
遗传学家的主要任务为找到那些与疾病相关的易感位点及其致病机制然后利用此类知识指导疾病预防、诊断及治疗等工作,以对人类的健康事业做出贡献。基因位点间存在的互关联作用已被视为人类诸多表型特征遗传机理的一个主要组成部分,对于多位点遗传变异模型的学习可以帮助我们更好的认识常见人类疾病的本质作用方式。但是从海量数据中寻找出少量的关键变异位点已被证明为是一件非常困难的事情。如何构建出一个合适的带有良好评价准则的多位点关联模型来表示易感位点子集与疾病之间存在的关联关系及如何从庞大的多位点互关联模型空间中快速而准确的定位出易感的关联模型是摆在我们面前的两大挑战。在本文中,我们构建了一个决策模型来表示变异位点子集与疾病之间的关联关系,然后采用了三种高效率的评价准则对其关联关系进行评估、衡量。另外,我们也还提出了两种蚁群优化算法的变种用来启发式地搜索、学习多位点关联模型。本文的创新性主要体现在以下方面:提出了一个广泛意义上的决策模型来解释构建分类模型对那些能够对具有不同表型特征的样本产生最大区分的易感变异位点子集进行统计学习的本质原理。然后我们采用了三种评价准则即条件熵、基尼系数及贝叶斯分值来测量所建模型识别变异位点子集的能力。基于虚拟数据集及高维的真实全基因组数据集,我们设计了实验以比较这三种评价准则的性能。实验结果表明条件熵与基尼系数比贝叶斯分值具有更高的计算效率但对正确易感多位点关联模型的检测效力却比贝叶斯分值稍差。当它们被用于检测一些弱关联模型时,条件熵与基尼系数在检测效力与计算效率上均表现出一定优势。在用来处理非平衡的样本数据集时,三种评价准则的效力都呈现出较大的下降,但样本集规模扩大以后,此种下降效应被削弱。另外在真实全基因组数据集上进行的实验表明贝叶斯分值与条件熵能够成功的检测出先前已被人验证存在易感性的变异位点。它表明了我们提出的带有合适评价准则的决策模型可以很好的被用于真实的全基因组数据集上进行易感、非同步起作用的变异位点子集的检测。提出了两种新的基于蚁群优化算法的变种策略以随机的学习、寻找易感多位点关联模型。策略一在学习遗传变异模型时并不限定所学模型的阶数因此具有很高的灵活性。我们提出了一种有效的迭代停止规则以加快此策略的收敛速度并基于它研究了对此优化策略中某些关键参数的设定方法以在算法的收敛速度及检测准确率之间寻找平衡。策略二则被用作为一种过滤式方法即首先使用其选择出一些高度可疑的变异位点子集合然后再在其上进行穷尽的搜索以学习其中可能存在的高阶互关联作用模型。在虚拟与真实全基因组数据集上进行的实验均表明我们的方法可以在保证检测精度的前提下有效的提高整个多位点关联模型的计算效率。
其他文献
电能在国民的生产和生活中扮演着举足轻重的地位,与其它能源相比,电能具有发输配需要平衡及难以大规模储存等特性,为实现用电需求的即时平衡和有效的避免电能的浪费,需要对用
由于青藏高原具有独特的地理地形和气候特征,给利用光学遥感数据反演雪盖带来了极大的挑战。首先,青藏高原的范围广平且均海拔较高,但是东西海拔落差大,光照条件差异造成东西
传统螺杆空压机多采用加卸载控制方式,此控制方式具有输出气压波动大、运行效率低和电能损耗高等缺点。因此,需要开发出节能高效的控制系统,从而实现螺杆空压机系统恒压输出气体。本文制定了螺杆空压机控制系统总体方案,设计了一套螺杆空压机恒压输出气体的电控系统,并在实际工况中体现了其良好的节能控制效果。本文的主要研究如下:(1)在理解螺杆空压机运行原理的基础上,建立螺杆空压机系统组成,对其主要零部件进行选型,
二氧化钒(VO_2)是一种典型的热致相变材料,在68℃可以发生金属相(四方体)到半导体相(单斜相)的结构可逆转变,并且伴随着光学、电学等特性突变。使其在智能窗、光电开关、热敏电阻等领域有广泛的应用前景。然而,VO_2(M)对太阳光中红外光的调制力还不够强(一般低于15%),可见光的透过率不够高(一般低于60%),存在红外光的调制能力与可见光透过率相互制约的问题,存在掺杂VO_2(M)相变温度降低与
为了解析人参属(Panax.Linn.)植物叶绿体基因组结构与其系统发育,本研究基于二代测序技术对珠子参(Panax japonicus var.major)、疙瘩七(Panax japonicus var.bipinnatifidus)、三七(Panax notoginseng)、人参(Panax ginseng)进行全基因组测序,使用生物信息学软件NOVOPlasty组装其叶绿体基因组,并使用
《史记》研究的深化伴随着空间叙事理论的发展,凸显出《史记》中叙事研究也得以从空间这一新视角出发而做出新的探究,最终为发掘《史记》的深厚底蕴作一番努力与成果。全文共分为五章:第一章研究《史记》空间叙事的形成,《左传》从时空,《庄子》从天地,《山海经》从四方,《诗经》从场景,《楚辞》从神幻,《汉赋》从奇异六个方面,分别组成了《史记》独特的空间结构。第二章司马迁的“究天人之际”探究《史记》的空间因素是由
滚动轴承作为旋转机械设备中的常用零部件,其运行状态将直接影响到整机性能。若滚动轴承出现故障而无法及时排查,可能造成整机瘫痪,产生巨大的经济损失,严重时可能导致人员伤亡。因此,无论从安全性或是经济性角度出发,对于滚动轴承的故障诊断具有重要的实际意义。变分模态分解(VMD)是一种非递归式信号分解方法,拥有坚实的理论基础,可有效避免端点效应、模态混叠等问题的产生,并具有良好的噪声鲁棒性。针对滚动轴承振动
《普通高中化学课程标准(2017)年版》的基本理念中提出要重视开展“素养为本”的教学,国家对人才培养的要求更加追求创新思维、合作意识和问题解决能力。为发展学生的化学学科核心素养和培养社会需要的人才,寻求新的化学教学模式很有必要的。为了落实高中生的化学学科素养的教学目标,重点提升学生的创新思维、合作意识和问题解决能力,以情境学习理论、建构主义学习理论等四大理论作为理论基础,本文提出了基于问题的学习(
中国共产党第十九次全国代表大会召开以来,弘扬中华优秀传统文化,坚定文化自信成为这个时代的另一个主题。“推动中华优秀传统文化创造性转化、创新性发展”的精神,已经用不同的方式践行着。在中华优秀的传统文化这一百花园中,古诗词以其独特的方式和艺术魅力绽放着光彩。古诗词承载着人类文明的发展历史,记录了一代代伟人的思想,凝结着中华民族的智慧与才能。弘扬传统文化从娃娃抓起、从小学生抓起。继承和弘扬传统就是让孩子
学位
纺织裁片是汽车座椅、服装等诸多行业中成品加工过程中裁床裁切的中间件,其质量是决定成品品质的一个关键。其中,在多周期花纹裁片中,花纹的偏斜角与周期长度是衡量裁片是否