论文部分内容阅读
蛋白质只有在正确的亚细胞结构下才能正常参与细胞中的各项生命活动。同一种蛋白质随着所在细胞器的不同,功能会发生相应变化。确定蛋白质所处细胞器位置即蛋白质亚细胞定位对于判定蛋白质功能具有重要意义。应用实验方法进行蛋白质亚细胞定位研究费时、费力、成本高。基于已有的实验数据应用计算方法预测蛋白质所处细胞器是解决上述问题的关键。但传统的基于蛋白质氨基酸序列的亚细胞定位方法很难检测到蛋白质功能发生变化的部位,而利用图像中的视觉信息则可以克服传统方法的不足。近年来,基于图像的蛋白质亚细胞定位方法成为生物图像信息学研究的热点之一。鉴于局部二值模式(LBP)已在人脸识别等领域获得了较好的识别性能,并开始应用于蛋白质亚细胞定位研究。因此,本研究拟利用RandTag蛋白质图像数据集,从LBP算法的不同变体中选择局部三值模式(LTP)、噪声容忍局部二值模式(NTLBP)、局部相位量化(LPQ)和局部配置模式(LCP)作为图像特征提取方法,应用SVM分类方法预测蛋白质所处的细胞器,根据分类性能从中筛选高效的蛋白质图像的特征提取方法。除此之外,应用基于夏普利值的自下而上特征选择方法筛选与蛋白质亚细胞定位相关的特征子集,用朴素贝叶斯方法进行分类。本研究提出的LCP结合SVM (LCP-SVM)得到最大分类精度;使用基于夏普利值的自下而上特征选择,LCP得到的特征子集最具代表性,结合朴素贝叶斯方法也能获得较好的预测性能,同时其运行所需时间比LCP-SVM少。实验结果表明:LCP特征提取算法是最优的图像特征提取方法。所结合两种分类方法的分类精度都比基于SURF特征提取方法高。本研究成果可以提高蛋白质亚细胞定位的分类精度,对于蛋白质功能研究有重要意义。