论文部分内容阅读
目前,随着检测全基因组的表达、甲基化、拷贝数等分子改变的高通量技术的发展,发现了大量的在癌组织中发生了表达、甲基化、拷贝数改变的基因,使得我们能够更系统地分析癌症的发病机理。在分析各种高通量组学数据时,一个基本的任务是要预先进行数据标准化处理,而各种标准化算法都假设疾病中差异基因的比例很小及差异上、下调的基因数目大致相等。由于基因可能在复杂疾病中发生了广泛而相关的分子改变,这种广泛采用的不可靠的标准化假设很可能会对筛选差异表达基因等下游分析有重大的影响。因此,本论文全面分析了在主要数据库中收集的关于各种癌型的基因表达、甲基化和拷贝数等高通量组学数据,通过比较在癌症与正常样本中这些分子改变的分布差异,评价几种主要的标准化方法,分析其影响生物学信号的偏倚程度。首先,我们论证了基因在癌组织中广泛差异表达的特性,而目前在基因表达谱实验中发现差异基因的低重复性现象实际上反映了癌相关基因广泛差异表达的特征。我们以基因表达改变的方向作为测度来分析基因在癌症样本相对正常样本中的特定的上下调表达模式。结果显示:对于在研究同种癌型的不同表达谱数据中识别的差异表达基因的改变方向是高度一致的,即基因在疾病样本相对正常样本的表达改变方向比较稳定,具有特定的改变方向。然后,我们分析了癌相关高通量数据标准化方法的合理性。结果显示:至少在癌症研究中,将疾病组与正常组样本一起标准化使得所有芯片的探针信号强度具有同样的分布会使得筛选差异表达基因等后续分析产生严重的偏倚。在癌表达谱数据中包含大量上调表达的基因,采用这些传统假设的标准化方法会失查很多癌相关的上调差异表达基因并且产生很多假的下调差异表达基因。同时,我们发现在关于同一癌型的不同的原始数据中筛选出的差异表达基因的改变方向高度一致,提示在原始数据中自然存在着有效的生物学信号。因此,发展新的统计方法提高统计效能去挖掘在原始数据中有效生物学信号是可能的。对癌甲基化谱和拷贝数谱也进行了类似的研究,结果显示:癌症与正常样本中的甲基化谱原始信号值的中值没有显著差异,采用标准化数据额外找到的差异甲基化基因的改变方向可以在关于同种癌型的独立数据集中显著一致地呈现,反映它们是有效的生物学信号。所以,可以采用标准化方法处理甲基化谱数据,但需要去除在标准化数据及非标准化数据中甲基化改变方向不一致的基因。在癌拷贝数谱数据中,我们发现了与癌表达谱类似的现象,即在癌拷贝数谱中存在大量的拷贝数扩增基因,提示在原始数据中提取癌相关生物学信号可能更为合理。最后,我们还分析了cDNA芯片数据的一个重要的预处理问题,即对应同一条Unigene的多个探针的检测值之间的相关性问题。结果显示:探针注释数据更新后,重复检测探针值之间的高相关比例显著提高,而大部分负相关的重复探针检测值没有通过差异表达筛选,说明尽管存在探针检测技术变异等因素,通过筛选差异表达基因还是能够相当可靠地捕捉与癌相关的生物学信号。因此,基于差异表达基因的后续分析(尤其是筛选富集差异基因的功能模块)可以得到可靠的生物学结论。本文系统地分析了在癌组织中基因表达、甲基化和拷贝数改变的系统性特征,并据此论证了目前通常采用的数据标准化方法存在的严重偏倚问题。本文的研究结果明确显示:在各种高通量原始数据中存在着有效的生物学信号,这为发展新的高效能的统计方法在原始数据挖掘生物信息提供了重要的依据。本论文的研究结果为合理分析癌相关高通量组学数据提供了依据,具有基础性的重要意义。