【摘 要】
:
全基因组关联研究中单核苷酸多态性集(single-nucleotide polymorphism set,SNP-set)分析方法在识别致病SNPs时有较高的功效。通过对DNA序列中所有SNP位点进行基因分型,能够发现与遗传疾病有关的致病机制,然而人体中SNPs数据量大、分布广,鉴定所有SNPs需要耗费的成本过高。研究表明,SNPs位点之间具有一定的关联性,一些相邻或同一基因上SNPs的信息可以用
论文部分内容阅读
全基因组关联研究中单核苷酸多态性集(single-nucleotide polymorphism set,SNP-set)分析方法在识别致病SNPs时有较高的功效。通过对DNA序列中所有SNP位点进行基因分型,能够发现与遗传疾病有关的致病机制,然而人体中SNPs数据量大、分布广,鉴定所有SNPs需要耗费的成本过高。研究表明,SNPs位点之间具有一定的关联性,一些相邻或同一基因上SNPs的信息可以用少数标签SNPs(tag SNPs)代表,这样大大降低了基因分型的成本,因此tag SNP-set选择方法的研究成为全基因组关联研究中的一个重要内容。为了解决SNP集分析方法中信息冗余的问题,本文提出了一种新的tag SNP-set选择方法,即基于连锁不平衡的最优迭代tag SNP-set选择方法--Tag SNP-set Selection by Optimal Iteration with Linkage Disequilibrium,TSOILD。在该方法中,以迭代的方式不断优化所选择的tag SNP-set的质量,以此使得所选择的tag SNP-set不仅可以最大化代表其它SNPs信息,而且保证tag SNP的数量尽可能少。为了更好评估TSOILD的有效性,本文还提出了一种利用物理距离信息和连锁不平衡信息评估tag SNP-set质量的方法--Physical Distance Linkage Disequilibrium Prediction Method,PDLDPM,PDLDPM在评估tag SNP-set时,不仅使用了与需要预测的SNP连锁不平衡最强的tag SNPs,而且使用了与其物理距离最近的tag SNPs,完成对tag SNP-set的定量分析。本文基于Hap Map计划中的HTR2A基因和OLFM4基因,用Linux环境下HAPGEN2软件生成了大量的仿真数据。根据实验结果讨论,本文提出的TSOILD方法与其他tag SNP-set选择方法相比,不仅具有更高的准确率,而且稳定性也比其他方法好。本文提出的PDLDPM方法与其它两种tag SNP-set预测方法相比,PDLDPM方法可以更好评估tag SNP-set质量。基于实验结果,我们认为tag SNP-set选择方法TSOILD可以选择出高质量的tag SNP-set,PDLDPM方法可以利用已知信息定量分析tag SNP-set,为研究复杂疾病的遗传水平变异提供了有效的帮助。
其他文献
目前,在油气长距离陆上混输和海洋油气田混输系统中,研究多相流特性,检测石油与天然气过程参数,确保生产过程稳定是油田开发流动安全的关键。丝网传感器技术作为一种侵入式的动态检测方法可广泛应用于多相流特性研究与多相流参数工程检测。其侵入式特性将流动截面平均分成若干个敏感测量点,实时测量管道截面的相分数,得到流体内部流动的详细信息。基于丝网传感器的多维测量结果,不仅可以检测流体流动的过程参数,还可以重建流
在地质勘探研究中,储层参数预测是综合利用地震和测井数据来评估和预测储层的岩性、物性及油气等性质的过程,其中孔隙度是最重要的储层参数之一。精确预测孔隙度,可以为地质综合评价、井位部署、储量估算等研究提供关键依据。在孔隙度研究早期,孔隙度测量方法以直接法为主,但存在取芯困难、成本高的问题。近年来,以极限学习机(ELM)、前馈神经网络(BP)等为代表的间接法成为了主流,但这些传统方法,都存在孔隙度预测精
随着高速无线局域网的迅速发展,并且日渐趋于成熟,高速无线局域网已广泛应用于人们的生活中。然而无线通信会受到冲突、干扰和多路径衰减等多种因素的影响,导致高速无线局域网中的通信链路质量比较差,有着较高的分组丢失率,发送端需要进行多次重传,使信道利用率变低,网络的整体性能下降。如果能准确识别分组丢失的原因,基于识别的结果对链路层协议进行改进,会有助于提高网络的整体性能。但现有的分组丢失识别算法存在高开销
文本蕴含识别是在语义基础上识别出句子对之间的单向推理关系,是自然语言处理领域的一项基础性研究,具有丰富的应用场景。现阶段,随着深度学习的快速发展,基于深度学习的文本蕴含识别方法成为了主流,国内外研究者进行了大量研究,达到了较高的识别效果。但基于深度学习的识别模型只从固定的训练数据中学习推理知识,没有考虑融合训练数据以外的外部先验知识,导致模型的泛化能力不强。针对以上问题,本文提出了一种在神经网络中
文章从核心素养与信息类文本的关联分析入手,通过分析2020年和2021年新高考I卷的命题特征,结合学生的答题现状与高考命题趋势,探究了信息类文本的有效备考策略。
随着大港油田公司“降本增效”的不断深入,迫切需要钻井提速,缩短钻井周期节约成本,针对定向作业,根据大港油区不同井型、剖面及井身结构、层系岩性特点,通过优化钻具组合、推广螺杆钻具改型、完善钻井参数配套,提高“一趟钻”定向井轨迹控制技术,从而实现安全快速钻井,提高经济效益,在大港油田具有良好的应用前景。
射频识别(Radio Frequence Identification,RFID)技术是物联网时代的关键技术,使用RFID技术可以实现对物体的非接触式自动识别。标签碰撞问题是RFID系统中存在的关键问题之一,设计出高效稳定的防碰撞算法对RFID技术的发展至关重要。基于查询树的防碰撞算法是用于解决标签碰撞问题的主要算法,但是其具有识别时延较长以及在捕获效应的影响下产生标签遗漏识别的问题,严重影响了算
布尔运算是计算机图形学领域的一个经典研究方向,在交互可视化、工程制造、工程设计、三维地理信息系统等领域有着重要的应用。目前传统布尔运算的建模和绘制过于复杂,使用布尔运算合成一些复杂的几何实体时会增加运算量,并且运算效率低。为了解决这些问题,针对布尔运算的结果,提出一种基于Shader着色器的几何图形布尔运算的实时渲染方法。二维和三维图形的光栅化布尔运算。提出一种图形光栅化的布尔运算方法,将二维和三
<正>新高考试卷中的现代文阅读Ⅰ又被称为“信息类文本阅读”,主要包括论述性文本和实用性文本。在新高考卷中,信息类文本阅读的总分为19分(新高考Ⅰ卷)或17分(新高考Ⅱ卷)。其中,选择题有3道,每道题3分。因此,保证信息类文本阅读选择题的得分率十分重要。然而,学生做信息类文本阅读选择题时成绩却很不理想。究其原因,笔者认为,学生只是掌握了信息类文本阅读选择题的“一类”陷阱(无中生有、因果混乱等),还没
随着互联网生态系统的快速发展以及用户需求的多样化,发布到互联网上的Web服务不断增加,呈现出爆炸式增长趋势。面对大量Web服务的出现,特别是多个功能相同或者相似的候选服务时,如何快速选择出最符合用户需求的服务成为Web服务推荐领域亟待解决的问题。现有的推荐方法虽然推荐精确度不断提高,但是推荐过程中没有充分挖掘用户信息和Web API(Application Programming Interfac