论文部分内容阅读
图形表示方法作为生物序列比较分析的方法之一,由于其具有可视性、易于数值刻画的特点,已经被广泛应用在生物信息学的研究中。本文主要工作是提出两种新的图形表示并将其分别应用在序列相似性分析和亚细胞定位预测中。本文基于核苷酸三联体、氨基酸的疏水指数值和异参数迭代函数提出了一种新的图形表示,并给出一种数值刻画来量化不同序列之间的相似性。应用此方法本文分别比较了九个物种的ND5蛋白序列和十二个物种的β-珠蛋白序列的相似性,并利用得到的距离矩阵构建它们的进化树,得到的进化树与物种的进化关系一致。另外,利用相关系数我们比较本文方法和传统的经典算法Clustal W以及其它图形表示方法和ClustalW的结果,比较的结果显示本文方法在序列相似性分析的研究中是有效的。亚细胞定位预测一直是生物信息学中的一个热点问题。本文中,我们结合图形表示方法和BP神经网络方法提出了一种新的亚细胞定位预测模型。首先应用新的蛋白质序列图形表示和对应的数值刻画计算蛋白质序列之间的距离矩阵,将其标准化后导入BP神经网络,得到了一个新的亚细胞定位预测模型。进一步地,利用构造的预测模型,本文在两个数据集ZD98和CL317上进行了试验,在这两个数据集上的整体预测精度分别为94.9%、87.4%。另外,利用个体敏感度和整体预测精度这两个指标,将本文预测方法与已有文献中的亚细胞定位预测方法在同样的数据集ZD98和CL317上的预测结果作比较,比较的结果显示本文预测模型能有效的预测蛋白质的亚细胞定位。