基于K-spaced氨基酸对编码的蛋白质-DNA相互作用位点预测研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:limiao912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质-DNA相互作用对于生物的生命活动密切相关。随之人类基因组测序工组的完成,相关人员发现,只有很少的一部分,大约2%的基因是用来编码蛋白质,剩余的基因具体的生物功能还没有完全被解析。因此,基因组学的研究开始兴起,目前大量的科学家着重研究基因的功能网络,这些研究对于了解生物机制也起到了关键的作用,其中一项重要的内容就是研究DNA分子与蛋白质的相互作用机制。生物实验研究发现,DNA分子不仅是遗传物质,能够用来编码蛋白质,还能与特殊作用的蛋白质结合,这样就对于基因的整个调控网络起到了控制作用。因此,我们发现生物分子之间的相互作用决定了生命活动,揭示了生物生命的本质。由于蛋白质是生物的承载体,DNA分子又是生命的传递者,这二者之间的相互作用机理也异常的重要,是诸如复制重组DNA等生命活动的一个基础。这些活动都是在特定的蛋白质参与的情况下发生的,同时又受蛋白质-DNA相互作用的调控,能够与DNA相互作用的蛋白质我们称为DNA结合蛋白(DNA-binding proteins)。随着生物信息学技术的快速发展,利用计算机技术和数学原理相结合的方法对蛋白质-DNA相互作用进行预测已经成为一种研究热点内容。本文旨在通过利用生物信息学的手段,对已知数据库中大量的数据通过数学原理建立模型,借助高性能的计算平台,开发高效精准的预测模型,达到事半功倍的效果,从而减少传统实验中时间多,费用高的缺点。本文主要从蛋白质序列特征入手,是利用现在较为流行的氨基酸编码方式——K-spaced氨基酸对编码方式,与支持向量机机器学习算法结合对蛋白质-DNA结合位点预测问题研究,通过对两个数据集PDNA62和PDNA224的比较,考虑不同的窗口长度的选择和K值的选取,找到最适合蛋白质-DNA相互结合位点预测模型建立的参数,同时通过与其他分类器的对比实验可以看出我们的方法非常的有效,并且对于今后的蛋白质-DNA结合位点预测问题有一定的指导性。从实验结果可以看出,选择用K-Spaced氨基酸对方法对于蛋白质-DNA结合位点的预测的有效性,从蛋白质序列的角度来看,这种方法之所以有效的原因是,它不仅考虑了20种氨基酸的信息,还保留了局部氨基酸对的相互作用信息。利用支持向量机作为分类器,建立的模型对于PDNA62数据集AC为78.38%,Sn为76.86%,Sp为79.86%,MCC为0.5691,AUC为0.613;针对PDNA224数据集AC为87.07%,Sn为81.4%,Sp为92.75%,MCC为0.7462,AUC值为0.7549。与其他8种模型比较,效果比较好,证明了我们方法的有效性,对于未来的生物实验具有一定的指导性作用。
其他文献
小练笔是基础的写作训练,只有做足"小"练笔,才有可能让学生写出"大"文章。通过练笔二轮设计对比,展现练笔需要遵循的策略,即突出循序渐进,强化学生练笔信心;突出读中悟写,提
残疾人是因为自然灾害、意外事故、经济贫困、基因遗传、疾病和战争等原因造成的身体或心理有一定缺陷的群体,承受着健全人不曾经历的痛苦和折磨。残疾人作为社会的弱势群体
成本体系是企业竞争力的重要指标,成本管理是实现企业效益最大化的重要途径。全球经济一体化的大背景下,企业之间的竞争已经发展为成本竞争。企业全员成本目标管理能够有效的
目前量子信息论已经成为现代物理学和信息科学的重要前沿领域。它不仅对加深现代物理学(特别是量子力学)和信息科学基础的理解具有重要意义,而且在信息处理,传输和高精密测量等
当代中国对外战略源于20世纪80年代中期邓小平对世界大势和主题的根本判断。在经历1989年春夏严峻政治风潮的考验之后,邓小平提出"二十六字"对外战略方针,并通过1992年其"南
背景与目的:胃癌是十分常见的消化系统恶性肿瘤之一。在我国胃癌发病率和死亡率都较高,而且由于其缺乏早期的特异性临床表现,不易察觉,导致通常诊断出的胃癌都已进入中晚期,
随着RFID技术的广泛推广和使用,如何进行RFID设备的选型成为摆在广大工程技术人员面前的一个重要问题。本文结合具体的产品和应用,介绍了RFID读写器和电子标签的分类和选型,
太赫兹波(THz)是指频率在100GHz到10THz的电磁波。太赫兹波处于微波电子学和红外光子学之间,在电磁波谱中属于有待开发且具有非常大的研究价值和应用价值的频段,在生物医疗、
随着5G通信时代的来临,无线通信在人们的生活中越来越普及,为人们的生活带来很大便利,然而伴随着智能移动终端的快速普及和无线传输带宽的增大,出现了一系列问题。一方面,随
鄂尔多斯盆地位于中国中西部地区,是一个多旋回复合型盆地,蕴藏着十分充足的油气资源,为中国第二大沉积盆地。本文研究地区为鄂尔多斯盆地演武地区,研究区位于鄂尔多斯盆地的