单倍型Hi-C软件的开发与应用

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:qqqq406340142
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于染色体构象捕获技术及其衍生技术(如Hi-C)的研究表明,染色质高阶结构在转录调控、DNA复制、早期胚胎发育以及疾病发生等过程中发挥着重要的作用。近年来,人们利用已定相遗传变异来区分二倍体细胞中同源染色体的高阶结构,发现父本染色质高阶结构和母本染色质高阶结构在特定区间或者特定发育阶段存在着显著差异,即染色质高阶结构具有等位效应,并且染色质高阶结构等位效应在调控等位特异性基因表达方面可能起着重要作用。本文将这种使用已定相遗传变异把Hi-C数据区分为父本和母本染色质互作的研究简称为单倍型Hi-C(haplotype-resolved Hi-C)。然而,由于遗传变异数量有限且分布不均衡,单倍型Hi-C的数据利用率较低并且数据偏好很强,因此优化单倍型Hi-C数据处理和结构识别对于提高单倍型染色质高阶结构识别的精度和准确性具有重要意义。本文开发了一种新型单倍型Hi-C软件HiCHap,主要功能包括利用Hi-C读段的所有序列信息来提高单倍型数据利用率,使用两步校正策略分别校正遗传变异分布密度不均衡和Hi-C实验引起的单倍型数据偏好,使用新的识别方法得到单倍型染色质高阶结构。最后本文使用HiCHap软件初步研究了染色质环等位特异性与关键转录因子等位效应之间的关联。首先,HiCHap软件利用了Hi-C读段上所有序列的杂合单核苷酸多态性(SNP)来提高数据利用率。传统Hi-C序列比对通常使用了切割连接位点或迭代切割方法,这个过程中丢弃了部分序列,本文对切割连接位点后的所有序列都进行序列比对,充分利用Hi-C读段上所有序列的杂合SNPs来提高单倍型Hi-C的数据利用率。其次,HiCHap软件使用两步校正策略分别校正了SNP分布密度不均衡和Hi-C实验引起的单倍型数据偏好,并构建了单倍型染色质互作矩阵。由于遗传变异分布密度与单倍型数据利用率之间的关系复杂,HiCHap直接使用该区间单倍型数据利用率来间接衡量遗传变异分布密度的影响,并结合非对称阵策略来对遗传变异分布密度不均衡引起的单倍型Hi-C数据偏好进行第一步校正。接着,将第一步校正后的非对称阵对称化,并使用矩阵平衡算法消除Hi-C实验引起的数据噪声,进行第二步数据偏好校正。经过与传统方法比较,本文校正算法在多个评价指标上都表现良好。再次,以染色质环为例,本文通过调整传统算法识别了单倍型染色质环,并在整合单倍型染色质环和传统非单倍型染色质环的基础上使用二项分布检验了父本染色质环和母本染色质环的差异显著性,识别和筛选等位特异性染色质环。最后,本文使用HiCHap软件分析了等位特异性染色质环与关键转录因子(如CTCF和Cohesin)结合位点等位效应之间的关联,发现等位特异性染色质环上往往也存在着等位特异性转录因子结合位点,并且染色质环等位效应与转录因子的等位效应呈现出一定程度的正相关性,暗示着关键转录因子结合位点的等位效应可能是引起等位特异性染色质环的重要原因之一。
其他文献
随着煤矿事故防治技术的发展,矿山企业针对瓦斯事故研制了一系列预警系统来预防事故发生,一定程度上降低了瓦斯事故率,然而现有煤矿瓦斯事故预警方法多基于监测数据的人工防
在中国哲学史上,对朱熹的“存天理,灭人欲”批判存在误解的成分:一是没有真正弄清朱熹所谓“天理”、“人欲”的内涵,二是将“天理”和“人欲”之间的对立关系过分扩大了。论文还
通信技术卫星二号锂离子蓄电池组是我所自主研制的锂离子蓄电池组首次在GEO卫星上应用。卫星对蓄电池组提出了长寿命和高可靠性的技术要求,通过研究分析提出了合理的在轨管理
教材是一本很好的作文范本,传统的语文教学模式,将课文学习写作完全脱节开来。在读写结合的教学过程中以“理解教材、拓展知识、口语表达、写作训练”为重点,以“解读、善思、巧
幼儿阶段的教育应当是饱含希望与乐趣的,不应当束缚在固定的模式与体制之下.但是目前的幼儿教育普遍存在教育形式固定或者较为死板的问题,教师在教育幼儿的时候缺乏活力,往往