论文部分内容阅读
蛋白质-DNA相互作用对于生物的生命活动密切相关。随之人类基因组测序工组的完成,相关人员发现,只有很少的一部分,大约2%的基因是用来编码蛋白质,剩余的基因具体的生物功能还没有完全被解析。因此,基因组学的研究开始兴起,目前大量的科学家着重研究基因的功能网络,这些研究对于了解生物机制也起到了关键的作用,其中一项重要的内容就是研究DNA分子与蛋白质的相互作用机制。生物实验研究发现,DNA分子不仅是遗传物质,能够用来编码蛋白质,还能与特殊作用的蛋白质结合,这样就对于基因的整个调控网络起到了控制作用。因此,我们发现生物分子之间的相互作用决定了生命活动,揭示了生物生命的本质。由于蛋白质是生物的承载体,DNA分子又是生命的传递者,这二者之间的相互作用机理也异常的重要,是诸如复制重组DNA等生命活动的一个基础。这些活动都是在特定的蛋白质参与的情况下发生的,同时又受蛋白质-DNA相互作用的调控,能够与DNA相互作用的蛋白质我们称为DNA结合蛋白(DNA-binding proteins)。随着生物信息学技术的快速发展,利用计算机技术和数学原理相结合的方法对蛋白质-DNA相互作用进行预测已经成为一种研究热点内容。本文旨在通过利用生物信息学的手段,对已知数据库中大量的数据通过数学原理建立模型,借助高性能的计算平台,开发高效精准的预测模型,达到事半功倍的效果,从而减少传统实验中时间多,费用高的缺点。本文主要从蛋白质序列特征入手,是利用现在较为流行的氨基酸编码方式——K-spaced氨基酸对编码方式,与支持向量机机器学习算法结合对蛋白质-DNA结合位点预测问题研究,通过对两个数据集PDNA62和PDNA224的比较,考虑不同的窗口长度的选择和K值的选取,找到最适合蛋白质-DNA相互结合位点预测模型建立的参数,同时通过与其他分类器的对比实验可以看出我们的方法非常的有效,并且对于今后的蛋白质-DNA结合位点预测问题有一定的指导性。从实验结果可以看出,选择用K-Spaced氨基酸对方法对于蛋白质-DNA结合位点的预测的有效性,从蛋白质序列的角度来看,这种方法之所以有效的原因是,它不仅考虑了20种氨基酸的信息,还保留了局部氨基酸对的相互作用信息。利用支持向量机作为分类器,建立的模型对于PDNA62数据集AC为78.38%,Sn为76.86%,Sp为79.86%,MCC为0.5691,AUC为0.613;针对PDNA224数据集AC为87.07%,Sn为81.4%,Sp为92.75%,MCC为0.7462,AUC值为0.7549。与其他8种模型比较,效果比较好,证明了我们方法的有效性,对于未来的生物实验具有一定的指导性作用。