论文部分内容阅读
本文主要讨论了脱氧核糖核酸(DNA)序列模体和蛋白质(protein)结构模体的问题。第一部分是关于DNA序列模体。它通常是序列特异的蛋白结合位点,比如核酸酶,转录因子的结合位点;其它的也有参与核糖体结合,信使RNA处理和转录终止。通常可以用带简并的一致性序列来刻画结合位点模体。比如在流感嗜血杆菌中发现的第Ⅱ类限制性内切酶hindⅡ,它的功能依赖特定DNA序列GT(A/G)(C/T)AC。本文介绍了如何利用嵌入式马尔可夫链在随机序列模型中对模体(简并字)进行查找和准确计数,给出如何针对特定的简并字来设计嵌入式马尔可夫链的状态集,并且分析这种方法在算法和实现上的优势。第二部分是关于蛋白质结构模体。它是指具有特定功能或作为一个独立结构域一部分的相邻二级结构聚合体。通常的模体描写侧重的功能和结构,比如螺旋-环-螺旋模体,发夹模体。而与DNA结合和与钙结合的螺旋-环-螺旋模体有不同的几何和氨基酸序列要求。本文侧重讨论在序列与结构联合空间寻找保守的模体,分析了同一个二级结构单元和不同二级结构单元之间序列和结构关联,并且对不同二级结构单元间的几何特征给出更为细致的描写-工字型;弄清楚蛋白质序列与结构之间的关系,不但对理解自然界丰富的蛋白质结构很有帮助,而且可以改进蛋白质结构预测方法,可以推动制药工业和酶化学工业的发展。