论文部分内容阅读
随着人类基因组计划的实施和不断深入,核酸、蛋白质序列及其表达谱等生物信息数据爆炸性地增长,这不仅为生物学药物学的研究提供了丰富的资源,加速了功能基因组学的发展,也对数据挖掘和知识发现技术也提出了新的挑战。与此同时,生命科学的研究正呈现“分子化、系统化、全面化”的趋势发展,人们对疾病的认识也逐渐深入,从人、器官、组织、细胞、以至于达到目前的分子水平,于是,后基因组时代疾病相关靶点的筛选需要从DNA序列,表达谱,蛋白质各个层面进行研究,以期高效地找到最优的疾病相关靶点。
离子通道是质膜上一类特殊蛋白,具有重要生物学及药理学意义。目前有关离子通道的数据信息分布分散,尚未有系统全面的离子通道数据集成平台,这对离子通道的研究带来了很大的不便,为此,本课题遵循目前形势的需要,将序列、表达等不同层面数据信息融合,并集成本课题组自主研发软件和现有经典数据分析软件及功能数据库资源构建离子通道数据集成分析平台,以期为离子通道科研者提供更为便捷的分析平台。
由于离子通道疾病为多基因型疾病,传统的单基因疾病识别分析方法已经不能够深入可靠的挖掘出疾病相关基因,为此,本课题运用创新的数据挖掘技术对离子通道基因表达谱数据进行系统化分析,并通过后期生物学功能注释数据库对复杂疾病的致病机理进行深入的分析研究。首先,根据离子通道的特点,从已有的全基因表达谱数据筛选离子通道基因以及其它跨膜蛋白基因的表达谱数据信息,这既可以充分利用已有的生物信息学数据资源,同时也对典型的离子通道疾病的研究提供了一个更新颖的数据提取分析视角,进而减少了昂贵的离子通道芯片的制作成本。然后,针对心脏病等典型的离子通道病,在组织样本类别的引导下,利用集成决策的方法识别与疾病相关的基因,对不同的交叉证实过程产生的结果进行交叉分析研究,并采用多种其它分类学方法对结果进行证实,结果表明:该方法识别出的具有统计学意义的与疾病相关的离子通道基因,与已有的生物学知识是相符,证明了方法的有效性。本研究采用一种针对离子通道与跨膜蛋白基因挖掘的模式识别方法,即决策森林方法,同时充分考虑综合频率与深度两个重要因素在致病基因选择过程的影响,而构建新的指标,同时采用四种经典分类方法进行结果证实,并融合多种生物信息学数据库,对实验结果进行深入合理的生物学解释。这些可靠性强的致病基因的发现,对于药物靶点的发现以及新药的研制都具有十分重要的意义。我们还提出了基于耦合双向聚类的离子通道数据分析技术CCTWC,从样本与特征两个方向对离子通道表达谱数据进行聚类分析,并将得到的离子通道基因簇,运用生物学通路网络构建软件PathwayStudio构建基因之间的互作关系,并分别分析了传统离子通道分型在基于疾病遗传机理层面所划分的离子通道亚型中的分布情况,以及离子通道基因簇中离子通道的互作关系,进而揭示基于表达相似所划分的离子通道亚型与疾病亚型之间的关联关系。
总之,本研究针对目前离子通道数据分散分布的特点,从不同层次构建了离子通道数据集成分析平台,并从离子通道基因表达谱数据出发,利用集成决策的方法挖掘疾病相关基因,并通过CCTWC方法分析研究了离子通道亚型与疾病亚型之间的内在关联,这些工作为复杂的离子通道疾病发病机理的研究提供了一个全新的视角。