论文部分内容阅读
序列对位是最常用的一类生物信息学研究方法。它在序列的功能、结构及进化关系预测、数据库搜索,系统发生树构建等方面有着广泛用途。然而,序列对位所得到的分值本身并不能说明太多问题,还需要进一步判定它在统计上是否显著,即随机得到这个得分的概率有多大,从而推断其在生物学上的意义。本研究目的是找出随机蛋白质序列得分的理论分布,从而为从序列对位的统计显著性推断出生物显著性奠定基础。
本研究中选用了真实不相关序列和五种随机序列作为背景序列,利用Needleman-Wunsch算法,对其进行全局对位,然后将对位得分与伽玛分布、正态分布和极值分布进行拟合分析,研究全局对位最优分的理论分布。
本研究中的真实不相关序列取自SCOP数据库,利用三种标准得到了各自的序列文件,即序列相似度小于10%的序列,E-value大于10的序列,以及取自不同折叠的代表序列。并对这些序列进行了处理,得到序列长度相似的一系列序列文件。本研究中的五种随机序列也是从SCOP数据库中随机抽取11对长度不同的不相关序列,采用不同的方法进行随机化,从而得到五种随机序列。这五种序列随机化方法分别是:1)根据序列长度和蛋白质平均氨基酸组成随机产生序列(ACL);2)根据原始序列的氨基酸组成分布和序列长度随机产生序列(CLA);3)对整条序列全局重排以保持氨基酸组成不变(GS);4)将序列分为几块,块内进行局部重排而产生随机序列,以保持局部序列氨基酸组成不变(LS);5)根据PAM突变矩阵模拟序列进化过程,使原始序列发生突变产生随机序列(SMP)。
本研究选择了四个得分矩阵-PAM120、PAM250、BLOSUM50和BLOSUM62,采用了仿射的(affine)和固定的罚分方法,对序列末尾同样罚分来进行全局对位分析。对于真实不相关序列,在每一个序列文件中的各对序列之间分别进行了全局对位;ACL和SMP序列则是一条原始序列与对另一条序列随机化后产生的新序列进行全局对位,然后再反过来;CLA、GS和LS序列则是一次产生一对随机序列,对其进行全局对位。然后将上面得到的各组得分作为样本,分别将其与三参数伽玛分布、正态分布和Gumbel极值分布进行分布函数拟合分析。
结果显示,三参数伽玛分布与所有组得分的拟合效果都很好,极值分布与所有组得分的拟合效果都不理想,而正态分布只有在三参数伽玛分布的位置参数很大时,有很好的拟合效果,因为这种情况下,正态分布是伽玛分布的极限分布。另外我们还发现,随着序列长度的增加,拟合得到的三参数伽玛分布的形状参数也增加,尺度参数却同时减小;随着局部重排块(window)的增大,三参数伽玛分布的形状参数减小;而采用哪种得分矩阵,对全局对位最优分的理论分布的影响并不大。