基于二级结构的MicroRNA识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:slgull
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Micro RNA(mi RNA)是一类具有调控功能的非编码RNA,长度大约为20-24个核苷酸。它们对于转录和转录后基因的表达具有调控作用,并且参与多种疾病的生理过程,但是其具体作用机制尚不明确。因此对micro RNA进行识别,对于生物学基础研究和基于micro RNA的治疗方案的研究来说都具有非常重要的意义。在后基因时代,随着RNA序列的雪崩式增长,对基于序列信息的micro RNA识别的计算方法的研究需求变得愈发热切。本课题对micro RNA的识别问题进行了深入的研究,主要从micro RNA序列的二级结构序列信息的角度,提取有效特征,并结合机器学习方法、自然语言处理技术来构建预测模型,具体研究内容如下:第一,提出伪二级结构状态成分(Pseudo structure status composition,Pse SSC)的概念,并将之应用到micro RNA识别的问题上。它针对现有方法只考虑RNA一级结构序列信息的不足,提出融合RNA二级结构序列信息的改进方案,同时结合RNA全局序列信息,来对RNA序列进行特征提取。通过这种特征提取方法,将RNA序列转化为特征向量,之后采用支持向量机构建分类器识别micro RNA。在基准数据集上的micro RNA识别准确率达到了85.76%,优于该领域现有的最优方法。第二,提出一种基于“二级结构距离状态对”的预测方法mi RNA-dis,针对Pse SSC方法由于忽略不同二级结构状态对的距离特性而导致的对micro RNA序列信息刻画不足的问题作出改进。在基准数据集上的实验结果显示,mi RNA-dis在预测精度(88.92%)与计算性能方面都优于其他对比实验方法。此外,特征权重分析也表明本课题提出的mi RNA-dis方法,可以对micro RNA序列的二级结构进行有效刻画。为了结合二级结构全局序列信息与二级结构距离状态对的优点,进一步提出了基于“伪二级结构距离状态对成分”的预测方法Pse DPC。在基准数据集上的实验结果显示,Pse DPC方法比只考虑了二级结构全局序列信息的Pse SSC方法的预测精度高1.93个百分点。第三,提出一种基于“有间n元二级结构状态组”(GSSC)的预测方法,针对传统的n-gram方法为了包含更多的全局信息而采取较大的n时导致的向量稀疏问题,引入“间隔”的概念,从而缓解了基于n-gram的方法在n较大时,对噪音数据的干扰过于敏感的问题。为了提高计算效率以处理大批量的数据,本课题设计了一个优化的核函数,并采取树形数据结构以及一系列的近似策略来提高核函数的计算效率。在基准数据集上的实验结果显示,该方法的预测精度为86.91%,AUC值为0.941,优于该领域现有的最优方法,并且比只考虑了RNA二级结构全局序列信息的Pse SSC方法的预测精度高1.15个百分点。第四,提出一种基于加权求和投票法策略的集成学习预测方法,通过整合上述4种方法的预测结果,对待测序列是否是micro RNA做出综合预测。为了分析以这4种方法作为基分类器进行集成学习的可行性,本课题通过设计实验讨论了这4种方法的互补性。在基准数据集上的实验结果显示,采用集成学习策略的预测方法对于micro RNA的预测性能相较于每一个基分类器有明显提升。为了验证模型的性能稳定性与在不同物种间的通用性,分别基于独立测试集和跨物种数据集进行了试验,都取得了较好的结果。
其他文献
凸优化问题和变分不等式问题在很多领域扮演着非常重要的角色.在网络经济、交通规划、统计应用、数据分析等方而都有广泛的应用.因此,如何设计有效的算法求解这些问题已经成
图的约束数概念最早是作为衡量网络连接失败脆弱性的一个重要参数由Fink et al在1990年正式提出的,由于图的约束数问题的解决依赖于图的控制数,而图的控制数是图论中一个经典
本文主要研究了亚纯函数正规族的几个结果,论文的结构安排如下:在前言中,我们主要对正规族的产生,发展及这个领域的主要研究成果作了简单的综述.在第一章中,我们对本文的基础
自1895年发现X射线以来,X射线作为一种物质的无损探测工具被广泛应用。然而,传统X射线吸收衬度成像技术在轻元素物质探测中具有低灵敏度的缺陷。而在20世纪后期发展的X射线相
自然界中的很多生物为了保持种群的延续,经过长期的自然选择,从而进化出不同的策略来应对恶劣的生存环境,其中棉铃虫就是通过滞育的方式来度过不良环境。棉铃虫幼虫能够感知
本文主要研究了反三角分块矩阵Drazin逆的表示问题和算子分块矩阵Drazin逆的表示问题:在第一章中,我们系统地综述了广义逆的发展历程与其发展现状,并给出了分块矩阵Drazin逆
近年来,由于分数阶微分方程可以更好地描述和刻画许多物理,生物,机械,航空工程等现象,因此成为国内外学者研究的热点,与我们生活联系比较密切的有天气和气候的研究、医学图像
本文主要是构造不同的迭代格式来计算广义逆,全文分为四个部分:第一章我们主要介绍广义逆研究的现状,背景以及发展趋势.此外,我们还说明与本文相关的迭代格式.第二章主要给出
本文主要利用几个不动点定理讨论了几类非线性分数阶微分方程解的存在唯一性问题,并构造实例来论证所得到的结论.全文共分为六章.第一章,介绍了分数阶微分方程及脉冲微分方程
分数阶微积分理论作为经典微积分理论的广义形式,吸引了广大专家学者的注意.其不仅为数学理论学科的一个重要分支,更是研究实际问题的基本工具.在近几十年来,区间值函分析作