论文部分内容阅读
基于染色体构象捕获技术及其衍生技术(如Hi-C)的研究表明,染色质高阶结构在转录调控、DNA复制、早期胚胎发育以及疾病发生等过程中发挥着重要的作用。近年来,人们利用已定相遗传变异来区分二倍体细胞中同源染色体的高阶结构,发现父本染色质高阶结构和母本染色质高阶结构在特定区间或者特定发育阶段存在着显著差异,即染色质高阶结构具有等位效应,并且染色质高阶结构等位效应在调控等位特异性基因表达方面可能起着重要作用。本文将这种使用已定相遗传变异把Hi-C数据区分为父本和母本染色质互作的研究简称为单倍型Hi-C(haplotype-resolved Hi-C)。然而,由于遗传变异数量有限且分布不均衡,单倍型Hi-C的数据利用率较低并且数据偏好很强,因此优化单倍型Hi-C数据处理和结构识别对于提高单倍型染色质高阶结构识别的精度和准确性具有重要意义。本文开发了一种新型单倍型Hi-C软件HiCHap,主要功能包括利用Hi-C读段的所有序列信息来提高单倍型数据利用率,使用两步校正策略分别校正遗传变异分布密度不均衡和Hi-C实验引起的单倍型数据偏好,使用新的识别方法得到单倍型染色质高阶结构。最后本文使用HiCHap软件初步研究了染色质环等位特异性与关键转录因子等位效应之间的关联。首先,HiCHap软件利用了Hi-C读段上所有序列的杂合单核苷酸多态性(SNP)来提高数据利用率。传统Hi-C序列比对通常使用了切割连接位点或迭代切割方法,这个过程中丢弃了部分序列,本文对切割连接位点后的所有序列都进行序列比对,充分利用Hi-C读段上所有序列的杂合SNPs来提高单倍型Hi-C的数据利用率。其次,HiCHap软件使用两步校正策略分别校正了SNP分布密度不均衡和Hi-C实验引起的单倍型数据偏好,并构建了单倍型染色质互作矩阵。由于遗传变异分布密度与单倍型数据利用率之间的关系复杂,HiCHap直接使用该区间单倍型数据利用率来间接衡量遗传变异分布密度的影响,并结合非对称阵策略来对遗传变异分布密度不均衡引起的单倍型Hi-C数据偏好进行第一步校正。接着,将第一步校正后的非对称阵对称化,并使用矩阵平衡算法消除Hi-C实验引起的数据噪声,进行第二步数据偏好校正。经过与传统方法比较,本文校正算法在多个评价指标上都表现良好。再次,以染色质环为例,本文通过调整传统算法识别了单倍型染色质环,并在整合单倍型染色质环和传统非单倍型染色质环的基础上使用二项分布检验了父本染色质环和母本染色质环的差异显著性,识别和筛选等位特异性染色质环。最后,本文使用HiCHap软件分析了等位特异性染色质环与关键转录因子(如CTCF和Cohesin)结合位点等位效应之间的关联,发现等位特异性染色质环上往往也存在着等位特异性转录因子结合位点,并且染色质环等位效应与转录因子的等位效应呈现出一定程度的正相关性,暗示着关键转录因子结合位点的等位效应可能是引起等位特异性染色质环的重要原因之一。