论文部分内容阅读
近年来,生命科学的快速发展给我们带来了许多新的挑战。随着人类基因组测序工作的完成,海量的“无字天书”摆在人们面前,怎样从浩如烟海的数据中提取有意义的信息则变得至关重要。要解读这部“无字天书”,理解基因表达调控的复杂机制,首先要确定所有的转录因子,它们是组成DNA结合蛋白的主要部分。而在众多己知的DNA结合蛋白中,存在着有规律的结构模序(structural motifs),而HTH模序(Helix-turn-helix motif)又是这些结构模序中最常见、被研究最多、组成比例最高的一种。
对蛋白质结构一功能域的理解,对于基因组工程有着极其重大的意义。随着基因工程的快速发展,出现大量与PDB(Protein Data Bank)库中已知蛋白相比没有很好的序列或结构相似性的蛋白,它们的功能信息没有被理解。因此如果能做到仅仅依据蛋白质序列信息来对蛋白质结构功能域做出正确预测,将会在很大程度上促进我们对蛋白质序列与蛋白质结构、功能之间关系的理解以及生物遗传信息在各个过程中传递机制的阐明。
因此近年来,对HTH模序的预测成了科学家们关注的一大热点,一批预测HrH模序的方法被人们相继提出。毫无疑问,在前人的基础上继承和发展对HTH结构域的预测方法的研究,能使我们更深入地探寻信息从基因到蛋白质的传递原理以及蛋白质结构、功能的注释,并将促使我们进一步地理解生命机制中的奥妙。
本文首先对于HTH模序预测及相关领域内前人所做的优秀工作,进行了全面的分析和研究。然后,从SMART和ExPasy数据库获取了本文工作所需的所有原始数据,并对原始数据进行分类整理,构建自己的HTH数据库。本文在最大范围内获取了己发现包含HTH模序的全部蛋白序列,并整理归类出十三个HTH模序家族,相比于前人的工作,数据集的规模、类别划分以及序列代表性方面都有大幅度的提升:在对HTH数据进行统计的基础上,本文构建了基于训练一预测的工作框架并尝试了多种基于序列信息的编码方法。最终发展出一种基于模式变量变换的新方法,取得了很理想的结果。
基于模式变量变换的新方法,是本文设计的一种新的变量变换方法。它通过对典型集序列的特征提取,得到一组与设定阈值相关的模式集合。这些模式的产生既保留了序列的统计特征,又能兼顾到氨基酸残基间的长程作用,同时还避免了出现过多的变量。在某种程度上,模式变量代表了特定位置上的氨基酸组合对于序列中产生HTH模序的贡献因子;而若干模式变量的组合关系可能蕴含了蛋白质序列中是否包含HrH模序的潜在规律。本文构建的工作框架,对于解决生物信息学领域类似的模式识别问题,有一定的启发作用。这种新的基于模式的变量变换方法,为实现样本的非等长变量编码,及变量优化等问题,提供了一种表现很好的新思路。