面向复杂性状遗传性缺失的关联分析方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:BeThinking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂性状作为一种受多个微效基因和环境共同控制的性状,其遗传机理研究一直是遗传学的热点与难点。复杂性状的研究在人类复杂疾病的预防、诊断和治疗、以及改良作物农艺和品质性状、选育优良品种中都发挥着至关重要的作用。随着人类及常见动植物基因组测序工作的相继完成,全基因组关联分析方法(genomewide association studies,GWAS)成为当下研究基因与复杂性状关联性最重要的策略与工具之一。但对大多数复杂性状而言,由全基因组关联分析确定的关联位点只能够解释相应疾病遗传方差的5%到30%,这一现象被称为"遗传性缺失"。已有研究表明,导致该现象发生的主要因素包括:1)单位点分析统计效力不足;2)缺乏对基因之间相互作用以及基因-环境相互作用的分析;3)罕见变异对性状的影响尚不明晰。基于此,本文以单核苷酸多态性(single nucleotide polymorphism,SNP)数据为数据材料,从上述1)和2)两个关键因素出发,对多位点关联分析、上位效应检测以及基因-基因相互作用等计算问题进行深入研究,为解决“遗传性缺失”提供新的思路和方法。具体内容包括以下四个方面:(1)提出基于混合线性模型和稀疏组Lasso的多位点关联分析方法为解决传统GWAS中单位点关联分析统计效力不足的问题,提出一种基于混合线性模型和稀疏组Lasso的多位点关联分析方法。首先,针对传统单一位点检测方法中存在的多检验校正导致的大量位点无法通过严格阈值、以及无法利用位点之间的关联性两个弊端。将多元线性模型引入关联分析,通过同时建模多个位点与表型之间的关联性,充分利用多个位点的联合信息来提升方法统计效力。其次,针对数据中存在的种群结构等混淆因素导致方法假阳性升高的问题,通过在线性模型中显式将混淆因素建模为随机效应项,更有针对性地消除系统误差对方法精度的影响。最后,通过使用稀疏组Lasso方法优化求解模型,使模型具有基因层面与SNP层面的双重稀疏性。实验结果表明,该方法在可以有效降低混淆因素造成的假阳性,提升在性状预测及关联位点选取方面的准确性,成为有力的关联分析工具。(2)提出基于因子分解机的上位效应关联分析方法从SNP数据层面研究变异位点之间的相互作用关系(即上位效应)被认为是解决“遗传性缺失”问题的可行性方案之一。现有方法中,基于穷举的上位效应检测策略导致计算量随着作用关系涉及位点数目的增加呈幂级增长。而基于随机或启发式的检测方法会因优化目标的不同导致上位效应的丢失。如何在考虑所有位点组合的情况下降低方法的计算复杂度,是上位效应检测的一个发展方向。基于此,本文提出一种基于因子分解机的上位效应检测方法。首先,通过独热编码对基因型数据进行稀疏化,获得等位基因层面对上位效应遗传机理的解释;其次,利用因子分解机学习每个向量在隐空间的嵌入向量表示,并利用两个特征之间嵌入向量的内积表征上位效应的作用强度。因子分解机可以在稀疏数据上有效学习交互特征的作用关系,在线性时间复杂度下完成2阶上位效应检测。实验结果表明,本文提出的基于因子分解机的上位效应检测方法可以高效、准确地检测互作关系。(3)提出质量性状下基因-基因相互作用的关联分析方法变异位点层面的相互作用研究往往会带来组合爆炸、统计效力低等问题。近年来,基于基因整体(即将一个基因中的所有SNP看做一个整体)的基因互作研究成为GWAS中的又一热点内容。本文提出一种基于距离相关系数和置换检验策略的基因-基因相互作用检验方法。首先,利用距离相关系数对非线性交互作用较强的检测能力,以及对两个交互向量维度不设限的优势,构造表示2组SNP在疾病样本与对照样本中相互作用差异的统计量来表征基因相互作用关系的强度。所设计统计量对基因之间的互作形式没有限制,可以使方法具有更好的泛化能力;其次,针对本文所设计统计量经验分布未知的问题,利用置换检验策略近似其分布,从而得到基因互作强度的显著性指标。实验结果表明,本文所提出的方法显著优于其它方法,可以有效准确地检测基因-基因之间不同形式的相互作用关系。(4)提出数量性状下基因-基因相互作用的关联分析方法数量性状取值在群体内个体间呈现连续性。研究与人体内脂质水平相关的遗传变异对于理解心脑血管疾病的致病机理至关重要;而植物的开花时长、粒重等也与优良品种的选育息息相关。但目前的研究中,针对数量性状下基因互作的研究十分有限。因此,提出一种基于U统计量和集成学习的检验方法,用于检验数量性状下基因的交互作用。首先,针对互作中大量存在的非线性关系,选取集成学习模型作为学习算法,其中集成学习的基分类器选用树模型,充分捕捉数据中不同形式的作用关系的同时保证模型的泛化能力;其次,通过采用使预测结果具有U统计量渐近正态性质的重采样策略,设计用于表征互作关系强度的统计量。实验结果表明,本文提出的方法可以有效检测数量性状下基因-基因之间不同形式的相互作用关系。
其他文献
目的白藜芦醇对腹膜透析液作用下人腹膜间皮细胞线粒体活性氧产生的影响。方法体外培养人腹膜间皮细胞株第5~10代(HMrSV5,DMEM/F12培养基含10%胎牛血清)用于实验研究。MTT检
背景和目的冠状动脉闭塞由病变血管粥样斑块内或内膜下出血、管腔内血栓形成或动脉持久性痉挛,使管腔发生完全或不完全的闭塞,导致心脏灌注不足,使得心脏组织的缺血,可破坏心
"读书"是否有用,自古就有争议。新"读书无用论",之所以"新",在于人们的教育期望与残酷现实的差距,主要靠社会学习在贫困群体中传播。教育"投入"与"产出"失衡,教育负载的社会
聚酯纤维/PVC柔性复合材料由于多用于户外,易受阳光照射而老化,从而影响材料的力学性能。通过模拟大气环境较好的氙灯耐气候试验箱,考察了氙灯加速老化对聚酯纤维/PVC柔性复
行政诉讼证据协力义务是指在行政诉讼中,不负举证责任的当事人以及当事人以外的第三人负有积极提供证据以协助法院调查案件事实的义务。该义务是职权主义诉讼模式之下,确定法
学习有效性的外延范围可以圈定为一种对"投入"和"产出"的综合考虑,其中,"投入"和"产出"的主体是受他人调控的,并以有组织地改善人的素质为目标。其概念争议的四个深层原因可
归化异化作为处理翻译中文化因素的两个原则,本身仍存在着不足之处,而且中国目前对归化与异化的讨论仍停留在描述翻译的阶段。笔者认为,归化与异化研究的未来趋势不应只停留
恶臭污染为世界七大环境公害之一,寻求合理的治理途径和控制方案已成为世界各国亟待解决的热点课题。生物滤器是近年来受到广泛关注的恶臭处理新技术,具有经济高效、无二次污染
软件测试是当前软件生成重要的研究课题。文中从源程序开始,引入基本块的方法将源程序转换为相应的控制流程图。并采用图形的方法将路径构造相应的自动机,通过对自动机中回边的
<正> 世界上一些有识之士正发出警告,“人类下个世纪所面临的最大问题将是水源问题”、“水源的争夺将成为今后战争的根源”。由于人们每天拧开水龙头便很容易得到水,所以对