基于序列模式深度挖掘的微小RNA亚细胞定位研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:Ada111222333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微小RNA(miRNA)是动物和植物中存在的一种长度约为22个核苷酸的非编码RNA,它在生物体的生命活动中参与了多种细胞过程,包括生物体内的发育、增殖、分化和代谢,并在转录后基因调控中发挥重要的作用。因为其对基因调控有重要的影响,miRNA在生物医疗领域也有重要的意义,特别是在许多复杂疾病中,miRNA已被证明是预后生物标记物和药物靶标。最近的一些研究发现miRNA可以靶向各种细胞区室,并且在细胞中具有丰富的定位模式。然而,据我们所知,迄今为止还没有用于预测miRNA亚细胞位置的计算工具,主要原因是缺乏有用的信息来源,在很大程度上限制了使用传统统计学习方法的预测性能。我们对miRNA亚细胞分类模型的各个模块进行了分析。首先针对输入miRNA序列的表示方式,探讨了多种分词和序列表示方式;其次针对输出的标记序列化,探讨了常见多标记分类的做法,并提出了一种基于熵的排序方法;最后针对miRNA稀缺的生物特征的问题,介绍了一种计算miRNA基因本体相似度的方法,并使用矩阵分解技术提取出miRNA的基因本体特征表示。在本研究中将miRNA亚细胞定位任务视为一种序列到序列学习过程,并提出了基于注意力机制的编码器-解码器模型miRLocator来识别人类的miRNA亚细胞位置。本文所设计的miRLocator使用双向长短期记忆(BiLSTM)模块对输入序列进行编码,使用LSTM模块将这些上下文向量解码为亚细胞位置集合。具体而言,本文提出了 RNA2Vec这种新的RNA编码方法,还提出了基于熵的方法来确定亚细胞的输出顺序表示,并加入了生物领域特征来提升模型性能。实验结果表明,miRLocator在输入信息有限的情况下实现了良好的预测精度,并且优于其它使用人工设计的特征和传统的RNN模型。
其他文献
多维随机变量间的相依性是统计分析的一个重要指标,常用于不同领域的统计分析,例如:金融领域、时间序列中的条件概率领域等,尤其是在大数据时代,随机变量间的相依性越来越被
矩阵空间上的保持问题具有很长的发展历史,它主要涉及刻画能够保持矩阵或者算子中某些代数性质的映射.线性保持问题是保持问题中最基本、最常见的问题.其重要性一方面归因于
本文在E-三角范畴中研究了与子范畴相关的有限分解及加法商范畴第一章介绍了本文的研究背景与主要结论,并列出了本文所需要的一些基本概念和事实.第二章引入了 E-三角范畴中
岩体在漫长的地质历史时期经历了复杂的地质改造作用,使得岩体发育了多种形式的结构面,如断层、夹层、节理、裂隙等不连续面。由于节理岩体中发育着大量的结构面,这些非连续
鲜水河断裂位于四川省内,属于青藏高原内部巴颜喀拉和川滇块体的边界,区域断层活动剧烈,地震发生频繁,地震危险性较高。其西北段断层发生过多次M7大地震,如1893年八美地震、1
传统的位移法的位移结果精度较高,计算机资源占用小,计算效率较高,所以在大的工程问题分析中应用较为广泛。但是,由于位移结果微分运算的存在导致应力结果跳跃不连续且应力结
目前,在中文信息处理领域中,对字和词的研究已经趋于成熟,相应的研究成果得到了广泛地应用。复句在汉语句法中具有相当重要的地位,而复句关系词又是小句连接的重要手段,因此,
酶是生物体内十分重要的生物大分子,参与多种生理过程,在生物体内发挥非常重要的作用。此外,酶与多种疾病有关,例如,碱性磷酸酶(ALP)水平异常升高可能与骨骼疾病、肝病(肝癌、肝
聚ε-己内酯(PCL)是一种新型的可降解材料,与传统的塑料或者金属材料相比,具有很多优秀的性能,受到了各个行业领域的广泛关注,因此对于其单体ε-己内酯(ε-CL)的研究也成为重
以魏家地煤矿东1100综放工作面运输顺槽为研究对象,综合采用实验室实验、理论分析、数值模拟、工业性试验等研究方法对极软特厚煤层拱形沿空掘巷围岩破坏机理及控制展开系统