论文部分内容阅读
人类基因组计划的顺利实施和成功完成,产生了大量的基因组信息。分析这些信息是人类基因组研究必不可少的重要工作。真核生物基因启动子的识别是基因组研究中的一个热点和难点。启动子是启动基因转录的一类重要序列调控元件。对启动子进行识别已成为基因结构识别中的重要一环,同时也是构建基因转录调控网络的核心问题。尽管目前提出了许多启动子识别的方法,但是识别中假阳性普遍都非常高。为了改善真核生物启动子识别领域存在的高假阳性的状况,本文首先搜集并学习了相关生物学知识和生物数据库信息;然后,基于主成分分析算法,提出了一种真核启动子识别系统。提取基因序列的内容特征,并使用主成分分析算法将高维内容特征进行压缩,形成主成分特征。将主成分特征与CpG岛特征进行综合并一同作为识别特征。通过提取人类启动子核苷酸联体信息生成内容特征矩阵,这样就产生了高维的统计特征。为使特征由高维降至低维,使用主成分分析算法将高维统计特征进行特征压缩。主成分分析算法是进行多变量分析的一种有效的方法,其主要思想是将原变量矩阵投影到新的空间,获得一组新的变量。通过对原变量的空间变换,只有能够代表原空间绝大部分变量的主要成分被保留下来形成新的空间,从而达到降维的目的。为了弥补在特征压缩过程中缺失了一部分特征信息,提取基因序列的CpG岛信息作为补充特征,将这2维CpG岛特征与10维主成分特征进行特征综合,共同作为BP神经网络的输入来识别启动子。将训练好的神经网络分类器对人类基因序列——L44140、D87675、AF017257、AF146793、AC002368和AC002397的启动子进行测试。最终的敏感性和特异性分别为64.70%和44.00%。为了评价系统的识别能力,我们将识别结果与PromoterInspector和DPF的结果进行比较。对人类基因序列启动子的预测结果表明,不但有效地减小了假阳性,而且具有较高的敏感性和特异性。