论文部分内容阅读
基因是带有遗传信息的DNA序列。随着测序技术的发展,基因测序渐渐揭开了生物学的众多奥秘。基因表达反映了细胞的进化过程,同时,伴随着转录组测序技术和单细胞测序技术的出现,基因数据与结构的多样性与差异性逐渐显现出来。然而,由于基因数据的数据量庞大,基因结构的复杂程度高,如何对基因数据与结构进行准确分析面临着巨大的挑战,如何筛选出疾病数据的致病基因具有显著意义。本文主要致力于进行转录组测序数据、单细胞时间序列测序数据的基因差异表达分析以及DNA序列结构的差异分析的研究,本文主要的研究内容如下:第一,针对转录组测序数据,鉴于当前方法不适用于对多组样本数据进行基因差异表达分析,利用信息熵理论,构造了用于识别差异表达基因的差异类熵函数,研究了基于差异类熵函数识别差异表达基因的方法(DEF:Differential Entropy-Like Function)。首先,与DESeq2、edgeR、baySeq和limma等传统方法相比,DEF方法可以应用于多组样本的数据集,应用范围更为广泛。其次,DEF方法与传统方法具有一样的功能,可以用于两组样本数据的基因差异表达分析,由于DEF方法适用于零表达量较多的数据集,因此DEF方法可以分析出未被传统方法分析出的差异表达基因。最后,针对亨廷顿疾病的microRNAs数据,利用DEF方法对控制组与对照组中的microRNAs进行了差异表达分析,预测了可能与疾病相关的microRNA作为亨廷顿疾病的生物标记物。同时利用相关性分析,得到与疾病严重程度有关的microRNAs,为亨廷顿疾病的诊断与治疗提供了新的线索。第二,针对单细胞时间序列测序数据,鉴于单细胞时间序列测序数据的不均匀性。利用动态时间规整算法,研究了用于识别差异表达基因的动态时间规整计分法。动态时间规整计分法适用于不均匀的单细胞时间序列测序数据,解决了不均匀间隔的两个时间序列数据的差异分析问题。同时将动态时间规整计分法应用于模拟数据集以及公共数据集,实验结果表明动态时间规整计分法检测出了细胞间高度变化的基因,验证了方法的有效性。进一步利用动态时间规整计分法推断的差异表达基因识别潜在的细胞类型,对细胞进行聚类分析。动态时间规整计分法作为识别差异表达基因以及推断潜在细胞类型的工具,对研究生物进化过程起到重要作用。第三,针对DNA序列的结构,鉴于DNA序列结构的复杂度较高,拓扑熵方法在进行有限长度DNA序列结构的差异分析时会出现误判现象。基于序列的拓扑熵理论,定义了序列的向量拓扑熵,减少了拓扑熵方法在进行有限长度DNA序列结构的差异分析时出现的误判现象。鉴于向量拓扑熵比较不同长度序列的局限性,定义了序列的K-维拓扑熵,K-维拓扑熵可以对不同长度的DNA序列结构进行差异分析,数值实验验证了方法的有效性。对于无限长度的序列,推广了序列的广义拓扑熵,证明了无限长度序列的广义拓扑熵等于其拓扑熵。同时,研究了DNA序列广义拓扑熵的有限近似法,并对其性质进行分析,说明通过广义拓扑熵的有限近似法,可以对无限长度序列的广义拓扑熵进行有限近似,为DNA序列结构的差异分析提供了新的思路。