论文部分内容阅读
Micro RNA(mi RNA)是一类具有调控功能的非编码RNA,长度大约为20-24个核苷酸。它们对于转录和转录后基因的表达具有调控作用,并且参与多种疾病的生理过程,但是其具体作用机制尚不明确。因此对micro RNA进行识别,对于生物学基础研究和基于micro RNA的治疗方案的研究来说都具有非常重要的意义。在后基因时代,随着RNA序列的雪崩式增长,对基于序列信息的micro RNA识别的计算方法的研究需求变得愈发热切。本课题对micro RNA的识别问题进行了深入的研究,主要从micro RNA序列的二级结构序列信息的角度,提取有效特征,并结合机器学习方法、自然语言处理技术来构建预测模型,具体研究内容如下:第一,提出伪二级结构状态成分(Pseudo structure status composition,Pse SSC)的概念,并将之应用到micro RNA识别的问题上。它针对现有方法只考虑RNA一级结构序列信息的不足,提出融合RNA二级结构序列信息的改进方案,同时结合RNA全局序列信息,来对RNA序列进行特征提取。通过这种特征提取方法,将RNA序列转化为特征向量,之后采用支持向量机构建分类器识别micro RNA。在基准数据集上的micro RNA识别准确率达到了85.76%,优于该领域现有的最优方法。第二,提出一种基于“二级结构距离状态对”的预测方法mi RNA-dis,针对Pse SSC方法由于忽略不同二级结构状态对的距离特性而导致的对micro RNA序列信息刻画不足的问题作出改进。在基准数据集上的实验结果显示,mi RNA-dis在预测精度(88.92%)与计算性能方面都优于其他对比实验方法。此外,特征权重分析也表明本课题提出的mi RNA-dis方法,可以对micro RNA序列的二级结构进行有效刻画。为了结合二级结构全局序列信息与二级结构距离状态对的优点,进一步提出了基于“伪二级结构距离状态对成分”的预测方法Pse DPC。在基准数据集上的实验结果显示,Pse DPC方法比只考虑了二级结构全局序列信息的Pse SSC方法的预测精度高1.93个百分点。第三,提出一种基于“有间n元二级结构状态组”(GSSC)的预测方法,针对传统的n-gram方法为了包含更多的全局信息而采取较大的n时导致的向量稀疏问题,引入“间隔”的概念,从而缓解了基于n-gram的方法在n较大时,对噪音数据的干扰过于敏感的问题。为了提高计算效率以处理大批量的数据,本课题设计了一个优化的核函数,并采取树形数据结构以及一系列的近似策略来提高核函数的计算效率。在基准数据集上的实验结果显示,该方法的预测精度为86.91%,AUC值为0.941,优于该领域现有的最优方法,并且比只考虑了RNA二级结构全局序列信息的Pse SSC方法的预测精度高1.15个百分点。第四,提出一种基于加权求和投票法策略的集成学习预测方法,通过整合上述4种方法的预测结果,对待测序列是否是micro RNA做出综合预测。为了分析以这4种方法作为基分类器进行集成学习的可行性,本课题通过设计实验讨论了这4种方法的互补性。在基准数据集上的实验结果显示,采用集成学习策略的预测方法对于micro RNA的预测性能相较于每一个基分类器有明显提升。为了验证模型的性能稳定性与在不同物种间的通用性,分别基于独立测试集和跨物种数据集进行了试验,都取得了较好的结果。