论文部分内容阅读
表观转录组学中的RNA修饰是生物体发挥功能所必须的基本细胞过程。目前,已经发现了大约170种不同的RNA修饰,其中三分之二的修饰是甲基化的。RNA甲基化是指在RNA分子不同位置上发生的甲基化修饰,其最具代表性的类型为5-甲基胞嘧啶(5-methylclcytosine,m5C)、N7-甲基鸟嘌呤(N7-methylguanosine,m7G)和N6-甲基腺嘌呤(N6-methyladenosine,m6A)。这些RNA甲基化修饰在RNA的结构、功能及代谢等方面都发挥着至关重要的作用。同时越来越多的研究表明,m5C、m7G和m6A修饰与许多疾病的发病机理有关。因此,准确测定出甲基化修饰位点在转录组中的分布是深入了解其生物学功能和修饰机制的基础,并且这还可以为药物的开发和掌握疾病的发病机理提供关键线索。研究表明高通量测序方法能够精确的识别修饰位点,但是却是昂贵和耗时的。因此,设计出能够准确高效地识别修饰位点的计算方法势在必行。目前,研究人员虽然已经基于机器学习提出了一些计算工具来识别甲基化修饰位点,但在预测性能方面仍有改进的空间。本文针对RNA甲基化修饰位点预测问题,从序列信息特征提取、重要特征的选择、机器学习算法整合和训练策略设计四个方面进行了探索,提出了三种不同架构的RNA甲基化修饰位点预测方法并设计了基于Flask框架的RNA甲基化修饰位点预测平台。论文取得主要创新工作如下:(1)提出了一种基于 LightGBM(Light Gradient Boosting Machine)和增量特征选择方法(Incremental feature selection method,IFS)的预测方法I FS-LightGBM。该方法首先通过融合二进制编码(binary encoding,BE)、位置特异性核苷酸倾向(position-specific nucleotide propensity,PSNP)、伪二核苷酸组成(pseudo dinucleotide composition,PseDNC)和核苷酸化学性质(nucleotide chemical property,NCP)四种RNA序列特征提取方法提取的特征向量较好地实现了 RNA序列的数值向量转换。然后基于LightGBM特征选择方法和IFS方法设计了一种新型的用于去除融合特征集中冗余和噪声信息的特征选择方案。最后,选择与特征选择方案相结合后能够获取到最佳预测性能的随机森林算法构建预测模型。IFS-LightGBM在数据集上获取到了91.67%的准确率(accuracy,ACC)和 0.8352 的马修斯相关系数(Matthew’s correlation coefficient,MCC),比其他的预测方法的ACC高出了5.01%-25.35%,MCC也比其他方法高出了0.1032-0.4852。这些实验结果证明,IFS-LightGBM 具有出色的预测性能。(2)开发了一种基于 BERT(Bidirectional Encoder Representations from Transformers)和堆叠集成分类器的RNA甲基化修饰位点预测方法BERT-m7G。BERT-m7G首先以原始的RNA序列作为输入,通过使用BERT模型将它们转化为具有固定长度的数值矩阵,这是BERT首次用于提取RNA序列的特征信息。然后,基于弹性网络构建了在不影响预测性能情况下能够降低搜索时长的特征选择方案。最后,利用TPE(Tree-structured parzen estimator)方法对堆叠集成分类器 中的基分类器和元分类器的超参数作调整以构建出最佳的模型。实验结果表明,BERT-m7G获得的准确率、马修斯相关系数、敏感性(sensitivity,SN)和特异性(specificity,SP)分别为 95.5%、0.910、95.8%和95.1%。与其他预测方法相比,ACC提高了3%-20.7%,MCC提高了0.06-0.415。这些实验结果证明该方法的预测性能优于其他最新的预测方法。(3)基于深度神经网络(Deep Neural Network,DNN)设计了一种能够识别不同物种不同组织中甲基化修饰位点的新型预测方法DNN-m6A。该方法首先对K-间隔核苷酸对频率(nucleotide pair frequencies,KSNPFs)和伪二核苷酸组成(PseDNC)这两种特征提取方法中的参数作调整以提取到更合适的特征向量。并将这两组特征与位置特异性二核苷酸倾向(position-specific dinucleotide propensity,PSDP)、增强的核酸组成(enhanced nucleic acid composition.ENAC)、三核苷酸组成(trinucleotide composition,TNC)、位置特异性核苷酸倾向(PSNP)、二进制编码(BE)和核苷酸化学性质(NCP)方法提取到的特征向量进行融合,以构造出能够更为全面的表征RNA序列信息的融合特征集。然后,使用具有不同参数的特征选择方法构建能够为模型筛选出有效的融合特征信息的特征选择方案。最后,使用贝叶斯优化算法对DNN的超参数进行优化以进一步提高模型的预测性能。在训练数据集上,模型获取到的准确率为73.58%-83.38%,曲线下面积(area under the curve,AUC)为 81.39%-91.04%。此外,在独立测试集上实现了 72.95%-83.04%的准确率和80.79%-91.09%的曲线下面积。模型评测结果表明,DNN-m6A的预测性能和泛化能力优于其他最新的预测方法。(4)为了便于使用,构建了基于Flask框架的RNA甲基化修饰位点预测平台。该平台有效地整合了本文提出的三种RNA甲基化转录后修饰位点预测方法。用户只需要上传待测试的RNA序列并选择修饰类型后,就可以在线的获取相应的预测结果。