论文部分内容阅读
随着人类基因组计划的完成,生物学研究已进入了后基因组时代,研究重点正从积累数据向解释数据转变。面对急剧膨胀的基因组序列数据,传统的生物学方法已很难满足需要。目前,生物信息学方法已成为核酸结构功能研究的重要手段。
本文通过一种新的途径,即以广义碱基性质得分(SGBP)结合自交叉协方差(ACC),线性判别分析(LDA)和支持向量机(SVM)建模,进行了DNA色谱保留指数、人类miRNA、脊椎动物启动子和人类蛋白质编码基因预测或识别,采用自检验、交互验证、外部验证等方法验证模型的预测能力。
SVM建模所得结果如下。①DNA色谱保留预测:留一法得到的Q2cv可达到0.851,MSE为0.1123。②miRNA预测:交互验证正确率(Acc)可达到77.29%。外部验证Acc可达到75.12%。灵敏度(Sn)和特异度(Sp)分别为70.51%和82.61%,马修斯相关系数(MCC)为0.5160。③启动子预测:交互验证Acc可达到85.12%。外部验证Acc可达到86.55%。Sn和Sp分别可以达到91.65%和81.47%,MCC为0.7336。④人类的蛋白质编码基因预测:交互验证Acc可达96.18%,外部验证Acc可达97.58%,Sn和Sp分别为97.28%和97.64%,MCC为0.9141。SVM建模结果均不同程度相当或者优于LDA建模所得结果。
研究表明,SGBP-ACC组合方法能够较好表征核酸序列特征,其含信息量大且易操作,SGBP-ACC-SVM在核酸定量结构功能预测领域具有较好的前景。