论文部分内容阅读
微小RNA(miRNA)是动物和植物中存在的一种长度约为22个核苷酸的非编码RNA,它在生物体的生命活动中参与了多种细胞过程,包括生物体内的发育、增殖、分化和代谢,并在转录后基因调控中发挥重要的作用。因为其对基因调控有重要的影响,miRNA在生物医疗领域也有重要的意义,特别是在许多复杂疾病中,miRNA已被证明是预后生物标记物和药物靶标。最近的一些研究发现miRNA可以靶向各种细胞区室,并且在细胞中具有丰富的定位模式。然而,据我们所知,迄今为止还没有用于预测miRNA亚细胞位置的计算工具,主要原因是缺乏有用的信息来源,在很大程度上限制了使用传统统计学习方法的预测性能。我们对miRNA亚细胞分类模型的各个模块进行了分析。首先针对输入miRNA序列的表示方式,探讨了多种分词和序列表示方式;其次针对输出的标记序列化,探讨了常见多标记分类的做法,并提出了一种基于熵的排序方法;最后针对miRNA稀缺的生物特征的问题,介绍了一种计算miRNA基因本体相似度的方法,并使用矩阵分解技术提取出miRNA的基因本体特征表示。在本研究中将miRNA亚细胞定位任务视为一种序列到序列学习过程,并提出了基于注意力机制的编码器-解码器模型miRLocator来识别人类的miRNA亚细胞位置。本文所设计的miRLocator使用双向长短期记忆(BiLSTM)模块对输入序列进行编码,使用LSTM模块将这些上下文向量解码为亚细胞位置集合。具体而言,本文提出了 RNA2Vec这种新的RNA编码方法,还提出了基于熵的方法来确定亚细胞的输出顺序表示,并加入了生物领域特征来提升模型性能。实验结果表明,miRLocator在输入信息有限的情况下实现了良好的预测精度,并且优于其它使用人工设计的特征和传统的RNN模型。