论文部分内容阅读
基因是遗传信息的物理和功能单位,基因功能的体现取决于其结构和表达调控状况。基因表达的调控就是把这些基因结构变换成多种多样基因功能的操作者。因此基因表达调控研究对揭示生命的奥秘具有重大意义。mRNA转录起始调控是调控的基本控制点,也是最重要的一环,其实质是转录因子结合相应的调控元件,影响了RNA聚合酶的活性,从而影响了基因的转录水平。针对目前国际上从结构角度研究较少的情况,本文从蛋白-核酸复合物的结构数据出发,分析氨基酸-碱基作用对,探索转录因子结合位点的预测方法。本文从PDB大分子结构数据库中查寻出所有记录的蛋白-核酸复合物。利用复合物作用力计算软件,对这些蛋白-核酸复合物的三维空间结构数据进行处理,得到复合物中可能存在的氨基酸侧链同核酸之间的作用对。然后依据SWISSPROT数据库对蛋白的注释,分成与调控过程相关的复合物集合和与调控无关的复合物集合。我们对蛋白-核酸复合物中的氨基酸侧链同核酸之间的作用对(包括氢键跟非键作用)进行统计分析。通过分析DNA跟转录因子的氨基酸残基作用的局部环境信息,发现一些三联或者五联残基片段总是结合DNA,因此我们提出猜想:在转录相关的蛋白-核酸复合物中,氨基酸残基环境或者碱基环境在一定程度上决定了中央残基或者碱基是否为作用位点。对非冗余的蛋白-核酸复合物数据集进行数据处理,提取结合序列和作用位点信息,用机器学习的方法初步探索了蛋白同核酸作用的结合模式。建立了一个反向传播神经网络,充分利用蛋白同核酸结合的信息,不断调整参数,反复进行训练学习,对DNA结合蛋白的结合残基进行了预测,发现局部环境信息能够以65.85%的NP较好地预测给出蛋白的结合残基。我们用支持向量机对结合碱基进行预测,选择不同窗宽和参数对数据进行训练和预测,并与神经网络方法进行比较,发现11个窗口长度的碱基环境的预测性能相对较好。使用径向基核函数,支持向量机成功预测为结合碱基的比例能达到89.72%,敏感性能达到66.71%。最后,我们对两种方法进行了比较,发现支持向量机预测结合碱基较为成功。本文利用蛋白-核酸复合物作用对数据,用机器学习的方法初步探索了蛋白同核酸作用的结合模式,证明了在转录相关的蛋白-核酸复合物中,局部残基环境或者碱基环境在一定程度上决定了中央残基或者碱基是否为作用位点。