论文部分内容阅读
随着生物信息技术的快速发展,海量基因组数据的涌现进入后基因组时代,研究者不再局限于研究单个基因的功能,而是希望以系统的角度理解维持生物生命活动的复杂生命过程,在这种背景下,系统生物学得到了快速发展。在系统生物学领域,挑战之一就是基因调控网络的构建,基因调控网络以图形化的方式描述了基因之间的相互作用,通过逆向工程构建出基因调控网络可以帮助我们更好的理解当环境条件发生波动时生物体内仍能保持稳定的分子机制。随着DNA微阵列技术的发展,快速积累的基因表达数据,出现了大量的构建基因调控网络的方法。此外,基因序列数据和功能注释数据等也在不断涌现。不同类型数据往往提供了不同的信息,如何有效的利用多种数据源之间的互补性,对于准确构建基因调控网络至关重要。针对基于基因表达数据,利用特征选择方法进行基因调控网络构建的不足,即往往仅给出网络中每条潜在边的重要性评分,而没有确定一个合适的阈值将排序结果转化为网络结构。本文提出了集成特征重要性遗传算法(Ensemble Feature Importance-Genetic Algorithm,EFI-GA),结合集成特征选择算法和遗传算法构建基因调控网络。首先利用集成特征选择方法为目标基因的每个潜在调控者计算一个重要性分值,该分值表示在该调控基因和目标基因间存在真实调控关系的可信度。然后利用遗传算法在具有较高可信度的调控者中筛选出最优的调控者子集。在逆向工程评估与方法对话(Dialogue for Reverse Engineering Assessments and Methods,DREAM)数据集上的实验结果表明了该方法的有效性。为了应对外部环境刺激或者完成某种生命过程,转录因子通过调控目标基因来执行相应的功能共同参与同一生命过程,因此两者之间往往具有相同或相近的功能,考虑转录因子和目标基因之间的功能相关性将有助于提高构建调控网络的准确性。本文提出了一种融合基因表达数据、基因序列数据以及基因本体(Gene Ontology,GO)数据构建基因调控网络的多特征融合方法,以有效运用不同数据源提供的相关特性提高基因调控网络构建的准确性。利用多种数据源构建特征向量,并使用支持向量机建立分类模型,预测转录因子和目标基因之间的调控关系。在拟南芥数据集和番茄数据集上的交叉验证结果表明本文方法具有更高的准确率。