基于深度学习的RNA甲基化修饰位点预测方法研究

来源 :上海海事大学 | 被引量 : 0次 | 上传用户:felixjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表观转录组学中的RNA修饰是生物体发挥功能所必须的基本细胞过程。目前,已经发现了大约170种不同的RNA修饰,其中三分之二的修饰是甲基化的。RNA甲基化是指在RNA分子不同位置上发生的甲基化修饰,其最具代表性的类型为5-甲基胞嘧啶(5-methylclcytosine,m5C)、N7-甲基鸟嘌呤(N7-methylguanosine,m7G)和N6-甲基腺嘌呤(N6-methyladenosine,m6A)。这些RNA甲基化修饰在RNA的结构、功能及代谢等方面都发挥着至关重要的作用。同时越来越多的研究表明,m5C、m7G和m6A修饰与许多疾病的发病机理有关。因此,准确测定出甲基化修饰位点在转录组中的分布是深入了解其生物学功能和修饰机制的基础,并且这还可以为药物的开发和掌握疾病的发病机理提供关键线索。研究表明高通量测序方法能够精确的识别修饰位点,但是却是昂贵和耗时的。因此,设计出能够准确高效地识别修饰位点的计算方法势在必行。目前,研究人员虽然已经基于机器学习提出了一些计算工具来识别甲基化修饰位点,但在预测性能方面仍有改进的空间。本文针对RNA甲基化修饰位点预测问题,从序列信息特征提取、重要特征的选择、机器学习算法整合和训练策略设计四个方面进行了探索,提出了三种不同架构的RNA甲基化修饰位点预测方法并设计了基于Flask框架的RNA甲基化修饰位点预测平台。论文取得主要创新工作如下:(1)提出了一种基于 LightGBM(Light Gradient Boosting Machine)和增量特征选择方法(Incremental feature selection method,IFS)的预测方法I FS-LightGBM。该方法首先通过融合二进制编码(binary encoding,BE)、位置特异性核苷酸倾向(position-specific nucleotide propensity,PSNP)、伪二核苷酸组成(pseudo dinucleotide composition,PseDNC)和核苷酸化学性质(nucleotide chemical property,NCP)四种RNA序列特征提取方法提取的特征向量较好地实现了 RNA序列的数值向量转换。然后基于LightGBM特征选择方法和IFS方法设计了一种新型的用于去除融合特征集中冗余和噪声信息的特征选择方案。最后,选择与特征选择方案相结合后能够获取到最佳预测性能的随机森林算法构建预测模型。IFS-LightGBM在数据集上获取到了91.67%的准确率(accuracy,ACC)和 0.8352 的马修斯相关系数(Matthew’s correlation coefficient,MCC),比其他的预测方法的ACC高出了5.01%-25.35%,MCC也比其他方法高出了0.1032-0.4852。这些实验结果证明,IFS-LightGBM 具有出色的预测性能。(2)开发了一种基于 BERT(Bidirectional Encoder Representations from Transformers)和堆叠集成分类器的RNA甲基化修饰位点预测方法BERT-m7G。BERT-m7G首先以原始的RNA序列作为输入,通过使用BERT模型将它们转化为具有固定长度的数值矩阵,这是BERT首次用于提取RNA序列的特征信息。然后,基于弹性网络构建了在不影响预测性能情况下能够降低搜索时长的特征选择方案。最后,利用TPE(Tree-structured parzen estimator)方法对堆叠集成分类器 中的基分类器和元分类器的超参数作调整以构建出最佳的模型。实验结果表明,BERT-m7G获得的准确率、马修斯相关系数、敏感性(sensitivity,SN)和特异性(specificity,SP)分别为 95.5%、0.910、95.8%和95.1%。与其他预测方法相比,ACC提高了3%-20.7%,MCC提高了0.06-0.415。这些实验结果证明该方法的预测性能优于其他最新的预测方法。(3)基于深度神经网络(Deep Neural Network,DNN)设计了一种能够识别不同物种不同组织中甲基化修饰位点的新型预测方法DNN-m6A。该方法首先对K-间隔核苷酸对频率(nucleotide pair frequencies,KSNPFs)和伪二核苷酸组成(PseDNC)这两种特征提取方法中的参数作调整以提取到更合适的特征向量。并将这两组特征与位置特异性二核苷酸倾向(position-specific dinucleotide propensity,PSDP)、增强的核酸组成(enhanced nucleic acid composition.ENAC)、三核苷酸组成(trinucleotide composition,TNC)、位置特异性核苷酸倾向(PSNP)、二进制编码(BE)和核苷酸化学性质(NCP)方法提取到的特征向量进行融合,以构造出能够更为全面的表征RNA序列信息的融合特征集。然后,使用具有不同参数的特征选择方法构建能够为模型筛选出有效的融合特征信息的特征选择方案。最后,使用贝叶斯优化算法对DNN的超参数进行优化以进一步提高模型的预测性能。在训练数据集上,模型获取到的准确率为73.58%-83.38%,曲线下面积(area under the curve,AUC)为 81.39%-91.04%。此外,在独立测试集上实现了 72.95%-83.04%的准确率和80.79%-91.09%的曲线下面积。模型评测结果表明,DNN-m6A的预测性能和泛化能力优于其他最新的预测方法。(4)为了便于使用,构建了基于Flask框架的RNA甲基化修饰位点预测平台。该平台有效地整合了本文提出的三种RNA甲基化转录后修饰位点预测方法。用户只需要上传待测试的RNA序列并选择修饰类型后,就可以在线的获取相应的预测结果。
其他文献
高架道路作为城市交通走廊具有十分重要的骨干作用,高架道路的交通异常和交通事故往往会诱增道路服务水平的恶化。对于高架道路异常以及事故风险等问题,以往的研究一般都是基于静态交通事故数据的统计分析,然而其在交通异常和交通事故实时检测的实时性相对较差,而且在道路交通事故风险评估上往往还需要更多的数据支撑。本文首先通过研究高架道路的交通异常、交通事故和交通状态的特征,然后提出了一系列深度学习的解决方法来实现
学位
相较于全监督语义分割,弱监督语义分割能仅利用图像级别的类别标注来预测图像中像素的类别,节省了大量的人力和时间的开销。目前的弱监督语义分割算法主要是一个三个步骤的过程,首先利用图像级标签训练一个分类网络、之后通过解析该分类网络的内部参数来生成伪标签、最后用利用伪标签训练一个端到端的语义分割网络。然而目前的算法还与全监督的语义分割算法之间有着较大的差异,导致这种差异的主要原因来自于三个方面:伪标签缺失
学位
代码克隆(Code Cloning)指的是字面或功能上相同的代码片段。由于很多客观的原因,诸如开发任务紧,开发人员水平有限等原因,软件项目开发人员经常通过复制粘贴代码片段来完成任务,在软件项目中产生大量的代码克隆。然而,代码克隆往往导致软件系统维护问题,诸如一处代码功能改变,但克隆的代码没有相应被修改,导致原来一致的代码功能不能一致。因此,如何自动、准确定位功能相似的软件代码成为软件分析任务中的一
学位
在高光谱图像(Hyperspectral Image,HSI)的每个像素点上有数百个光谱波段,并由此形成了一个三维的图像立方体,其中每个光谱波段可以被视作一个二维的图像,因而组成的图像立方体包含有大量的信息。通过分析这些信息,每个像素点可以被预测为某一个类别,并且精准地预测出这些像素点的不同类别是可行的。随着分类技术的高速发展,高光谱分类成为了军事、农业和航空的基础。近些年来,某些高光谱图像分类算
学位
为了减少全球船舶污染排放,国际海事组织(IMO)划分了特定的区域作为排放控制区(ECA),来减少船舶污染物的排放。为了符合ECA法规,船舶经营者使用了不同的减排技术。目前减少船舶排放的主要方法有船舶使用低硫油(燃料切换)、船舶安装洗涤器和船舶使用液化天然气,这些减排方法将会对船舶航线和速度产生影响。船东为了尽可能地降低船舶的航行成本,船东可能在ECA外高速航行并且使用重质燃油,在ECA内低速航行且
学位
新一代信息技术与传统制造业的深度融合,加之市场竞争的加剧和客户需求的日益多样,低附加值、低效率和高消耗的传统制造流程随之发生改变。相较于传统制造,智能制造更加注重产品生命周期内各阶段的高效集成,能够依托先进的信息技术,从而实现数据与技术的深度融合。然而,复杂产品的智能化、数字化转型作为一个动态复杂的过程,既涉及产品生命周期的多阶段、多层级和多要素,又跨越多个制造边界。因此,亟待开展卓有成效的复杂产
学位
波浪补偿装置是在颠簸的海上施工环境下为海上人员设备提供一个相对平稳的施工作业环境的机械装置,按驱动方式可以分为主动式、被动式和半主动式三种类型。与被动式波浪补偿装置和半主动式波浪补偿装置相比,主动式波浪补偿装置具有控制精度高,多自由度补偿耦合效果好等优点。主动式波浪补偿装置工作过程中对时滞的影响十分敏感,是一种典型的时滞控制系统。但与常规的时滞控制系统相比,主动式波浪补偿系统的控制存在两个核心问题
学位
金属氧化物半导体气体传感器具有材料种类多、结构简单、集成方便、成本低、灵敏度高和稳定性好等优点,一直都是气体传感器领域的研究热点。其中,二氧化锡(SnO2)凭借其优异的电学性能、多样化的合成方式、可控的氧空位和多种晶体结构而备受关注。然而,SnO2气体传感器目前还存在工作温度高、对湿度敏感、选择性差等缺陷,其制备工艺也存在流程复杂、精确调控困难等问题。本论文以SnO2为主要研究对象,采用结构调控、
学位
视觉问答是一项涉及计算机视觉、自然语言处理以及知识表示与推理等多个领域的多模态学习任务。在视觉问答系统中,给定一幅图像和一个与图像内容相关的自然语言问题,要求模型能够给出一个准确的自然语言答案。目前,得益于人工智能相关技术和领域的蓬勃发展以及众多科研工作者的不懈努力,视觉问答系统从早期只能勉强地回答答案为“是”或“不是”的是非类问题,发展到现在已经可以正确地回答需要复杂推理和外部常识知识的问题,其
学位
用自制的心电信号测试系统,采集了健康人和心脏病患者的心搏数据,用非线性方法对心率变异性(HRV)进行了较全面的分析.研究结果表明:混沌特性是年轻健康心脏的重要标志,而多变性的降低或周期性的增加往往伴随着衰老和疾病.
期刊