论文部分内容阅读
蛋白质亚细胞定位与蛋白质功能,结构及相互作用都密切相关,因此建立可靠的亚细胞定位预测模型对理解蛋白质机能,生命活动以及药物研发都具有重大的意义。以蛋白质字母序列为研究对象,基于数学方法和计算机技术的预测方法成为了研究重点。虽然目前已经提出了许多此类预测方法,但是仍存在两方面问题:一、预测方法的时间复杂度和空间复杂度仍然较高。二、不能有效解决数据量有限且数据分布极度不平衡的数据集的预测问题。针对这两个问题,本文提出了两个基于离散特征的新型预测模型,主要创新工作概括如下:首先本文提出了基于蛋白质序列图形表达HR-Curve的亚细胞定位预测模型。HR-Curve的构建基于氨基酸理化性质分类和双向量,HR-Curve具有高可视性,信息完备性,分类可视性以及多应用性等特点。同时根据HR-Curve的特点,本文提出了一种高效的基于欧式距离的相似度计算方法MAV,该方法很大程度上降低了时间复杂度和空间复杂度。最后将HR-Curve应用到亚细胞定位预测。实验证明HR-Curve在保持较高预测准确性的同时,明显有效地提高了预测效率。针对第二个问题,本文提出了基于SVM的亚细胞定位迁移预测模型。该模型基于改进的基于亲疏水性的氨基酸分类的特征提取方法和SVM的迁移学习思想。通过加入自适应检测条件,在保证预测准确率的同时,迁移学习的收敛速度得到了有效地提高。最后从两方面验证了该迁移预测模型的特点和优势:一方面通过设计对照实验,证明迁移预测模型对特殊数据集的适用性及高效性。另一方面通过与其他方法对比,进一步说明迁移预测模型的特点和前景。