论文部分内容阅读
蛋白质和非编码RNA在细胞中的分布对于理解生物大分子相互作用和功能以及药物研发等都具有重要作用,而通过实验来确定二者在细胞中的位置费时费力,急需有效的分类系统来进行预测。本文从建立数据集、特征表达、特征筛选、分类算法、检验方法、评价指标、实例研究和结果分析等方面详细讨论了蛋白质与非编码RNA亚细胞定位的预测。 首先建立了真核生物蛋白质的亚核定位数据集与古核生物蛋白质的亚细胞定位数据集,并提取蛋白质的四类特征信息:序列信息、进化信息、GO注释和蛋白质翻译后修饰。其中序列信息指的是分段氨基酸组分和基于二项分布进行了筛选的三肽组分;进化信息即过滤后的序列谱是根据位置特异性打分矩阵,计算出蛋白质序列的保守位点的序列谱;基因本体论则用一条序列的同源序列的GO注释来表达该条序列,然后基于Shannon信息对GO进行了筛选,最后转化为逻辑向量;而翻译后修饰则是考虑蛋白质序列的磷酸化丝氨酸、磷酸化苏氨酸、磷酸化络氨酸、乙酰化和甲基化位点的数目。然后把四类特征分别输入由KNN和SVM构成的二分类器系统,采用投票法来决定蛋白质在细胞中的一个或多个位置,最后用留一法进行检验,取得了较好的预测结果。 对于非编码RNA,本文则是第一次从理论上对其亚细胞定位进行研究,首先构建了一个ncRNA亚细胞定位数据集,然后综合三种k-mer组分信息,利用SVM和KNN构成的集成分类器对ncRNA的亚细胞定位进行预测,得到了86.75%的预测成功率。 文章最后总结了以上三个工作,并对蛋白质和非编码RNA亚细胞定位的预测提出了一些进一步的设想。