面向长序列数据的单体分型算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ylfly5257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单体型序列是生物遗传分析中的一类重要信息。由于实验方法获取单体型序列具有价格过高、速度慢等缺点,使用计算手段从易于获取的基因型序列得到单体型序列成为人们的首选,并发展为基因组学里一个基础的计算问题,称为单体分型问题。随着基因组学的发展,研究所需的单体型序列越来越长,有的甚至达到上百万个位点,这给单体分型问题提出了新的挑战。目前几乎所有的大规模单体分型算法在个人计算机上都只能处理长度小于十万的序列,因此迫切需要能处理长序列数据的单体分型算法。本文主要研究在内存有限的个人计算机上,分型长度十万位点以上的长序列数据集的快速单体分型算法,具体工作如下:1.面向长序列数据集的WinHAP2.0单体分型算法改进及并行化WinHAP2.0算法是近年来我们研究小组提出的一个长序列单体分型算法,本文对WinHAP2.0算法从两方面进行了改进,一是使用投票策略改进了段合并方法,二是进行了并行化。实验结果表明改进后的WinHAP2.0算法相比于原算法在段合并处的位点的交换错误率下降了20%-30%左右。相比于其他算法,改进后的算法计算精度与最好的算法相似,而计算时间和空间消耗低数倍到数十倍。该算法能够在个人计算机上使用12.8MB的内存分型500条长度一百万个位点的序列,而其他算法均无法完成这一任务。算法的并行化获得了几乎线性的加速比。2.面向大规模长序列数据集的单体分型算法由于WinHAP2.0算法存在当序列条数很多时计算时间过长的缺陷,本项工作进行了进一步的改进,引入了序列聚类思想,提出了CbWinHAP算法。CbWinHAP算法首先将比较相似的序列聚成一类,再分别进行推导,由于聚类提高了相似序列的作用从而精度得到提高。而序列条数的减少又使得计算时间和空间得到降低。实验结果表明CbWinHAP算法在保证计算精度相比于原WinHAP算法和WinHAP2.0算法不下降的情况下,计算时间和空间均降低了数倍。为了进一步提高计算速度,我们也为CbWinHAP算法进行了并行化。实验表明并行后的算法获得了接近于线性的加速比。
其他文献
光通信网中的传送网和接入网这两个领域目前正朝着高速大容量方向发展,在有限带宽的情况下如何提高通信容量越来越受到关注。偏振复用可以用来提高单根光纤的通信容量,而单载波
为了充分利用彩色成像丰富的纹理细节,及热红外成像在夜视和不良天气条件下的稳定性,应用数据融合的理论和方法,综合热红外与可见光传感器的互补信息,进行图像目标检测。该方法能
生物医学文本中隐含着不断更新的生物医学知识,从这些知识中可以发现基因同疾病之间的关系、基因同蛋白质之间的关系。因此,准确的进行基因名识别是抽取出这些关系的重要前提
随着数据挖掘技术的快速发展,聚类分析技术的应用越来越受到人们的广泛关注。聚类分析是无监督学习的过程,根据数据对象的相似性聚集成簇,从而发现数据集中数据的分布规律和发展
随着科学技术及信息技术的不断进步,电子商务的应用程度越来越高,Web2.0技术的进步在很大程度上对人们的物质生活和价值观念等都产生了非常大的影响,特别是在电子商务和大数
混沌学是从非线性科学引申出来的一门新科学。针对混沌现象研究出的混沌理论,国内外广大学者在流体的湍流、化学及电力系统、保密通讯等方面取得了非常广泛的应用成果。特别是
图像分割是计算机视觉研究的基础问题。变分水平集方法由于其复杂拓扑结构自适应表达、二维/三维图像分割表达的一致性、多模型集成能力等特点,已被广泛用于图像分割中。本文
数据分类是数据挖掘的研究热点。其目的是根据训练数据集的特点构造一个能够把测试数据集中的待测样本映射到某一类别的分类器。利用该分类器,能够提取描述数据类别的模型或
为夜视图像染色的目的是通过提高夜视或微光条件下图像信息维数,使夜视图像不仅具有直观可辨的场景信息与显著突出的兴趣目标,且具有与日光条件下更相近的颜色效果,符合人眼观察
基于内容的图像检索是根据图像的内容,对图像内容进行分析和量化并提取图像特征,并且使用图像的特征进行图像检索的技术。目前基于内容的图像检索技术已经在图像搜索引擎、医