基于集成深度学习的m6A(m)甲基化位点预测研究

被引量 : 0次 | 上传用户:arigadordor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
m6A是真核信使RNA修饰中含量最丰富的一种修饰方式,在控制细胞功能和基因表达中起着重要的调节作用。m6Am也是RNA转录后修饰的一种方式,可能与细胞功能控制中的调节作用有关。然而,通过实验方法以单碱基分辨率检测m RNA中的m6A(m)位点仍然是一个挑战,而且这种方法通常耗时且昂贵。发展计算方法是从大量RNA序列数据中准确检测m6A(m)修饰位点的良好策略。因为准确地鉴定转录组范围内的m6A(m)位点,是了解高度依赖m6A(m)的m RNA调节机制和生物学功能的基础。1)本文基于哺乳动物多个组织中的高置信水平数据,利用集成深度学习构建了一种新的计算方法im6APred,以准确识别m6A位点。此模型im6APred建立在对多种分类方法的综合评估之上,包括四种传统分类算法、三种深度学习及其集成。通过五次交叉验证测试选择出最佳的分类器组合,以实现有效的叠加模型。在独立测试中,im6APred的受试者操作特征曲线下面积(AUROC)指标为0.82-0.91,表明此模型能够学习RNA序列中与甲基化相关的序列特征,并能准确的识别m6A位点。此外,通过对基准数据集进行跨物种/组织验证,获得了0.77-0.96的AUROC,表明在组织水平上存在预测性能差异,证明了构建m6A位点预测的组织特异性模型的必要性。此外,我们还开发了一个用户友好的Web服务器,可以访问http://121.36.221.79/im6APred.2)本文还提出了一个集成深度学习框架,命名为DLm6Am以识别m6Am位点。DLm6Am由三个相似的基分类器组成,每个基分类器包含一个多头注意力模块,一个具有两个并行深度学习的嵌入模块子模块、卷积神经网络(CNN),双向长短期记忆网络(Bi LSTM)和预测模块。为了证明此模型体系结构的性能,在训练数据集训练模型的基础上,将多个模型框架与我们的方法在训练集和独立测试数据进行了比较。此外,还与最新的模型m6Am Pred和Multi RM进行了比较。在独立测试数据上,与m6Am Pred和Multi RM相比,DLm6Am模型的准确度(ACC)分别提高了6.45%和8.42%,DLm6Am模型的接收者操作特性曲线下面积(AUROC)也分别增加了4.28%和5.75%。DLm6Am在ACC、马修斯相关系数(MCC)、AUROC以及精度和召回曲线下面积(AUPR)方面都比现有预测器效果更好。为了进一步评估此模型的泛化性能,我们实施了染色体水平遗漏交叉验证,发现获得的AUROC值大于0.83,表明我们提出的方法是稳健的,可以准确预测m6Am位点。
其他文献
氮、磷污染造成的水体污染是影响社会可持续发展的重要隐患,成为目前亟需解决的环境问题之一。目前常用的脱氮除磷技术主要是基于易降解有机碳源的异养反硝化和强化生物除磷工艺。它们在处理低C/N废水时存在依赖外加有机碳源、工艺复杂,成本较高等问题。而硫自养反硝化工艺因无需外加碳源,成本低廉,无二次污染风险,污泥产量低等优点受到广泛关注,但是人们对于硫自养反硝化工艺的除磷行为很少深入研究。本研究利用从普通厌氧
学位
随着我国环境污染问题日益突出以及人们对环保意识的不断增强,瓦楞纸包装成为“绿色包装”的主要手段。目前针对纸箱成型机械的研究日益成熟,而对纸箱内部隔板成型机械的研究还处于初级研发阶段,随着人们对商品分区防护以及美观要求的不断提高,纸板成型机械成为企业研究的热点。本课题在安川首钢机器人有限公司为蒙牛牛奶包装生产线设计的纸板成型机的基础上,针对机构使用寿命低,零件易发生失效破坏等问题,基于虚拟样机技术,
学位
生物柴油生产过程中副产的甘油可通过催化氢解转化为高附加值的1,2-丙二醇,被认为是一种甘油高效转化为高附加值产物的有效途径。由于Cu基催化剂具有较高的1,2-丙二醇选择性和相对较高的甘油氢解活性,因而被广泛用于甘油氢解制1,2-丙二醇的反应。论文以铜铝合金粉和拟薄水铝石为原料,经成型、干燥、焙烧和抽铝活化等步骤制备了一系列可用于固定床甘油氢解反应的Raney Cu/Al2O3催化剂,并对其进行了理
学位
龚易图是晚清福建著名藏书家,拥有乌石山房和大通楼两座藏书楼,藏书十四万卷。龚易图身居高位,历任山东、江苏、广东等地,是洋务运动的重要参与者;同时他是同光体闽派的重要前辈,一生交游极广,酷爱收集书籍,在保存福建前代藏书方面贡献颇大。本文以龚易图藏书为中心,围绕《大通楼藏书目录》和《乌石山房简明目录》展开考证,利用书籍史和阅读史等方面研究方法,研究龚氏藏书的整体面貌和意义,研究龚氏在传承福建文献方面的
学位
学位
高通量生物信息技术的快速发展,为癌症诊断提供了新的思路和手段。通过分析高通量组学数据,可以揭示癌症在分子水平上的变化,并找出具有诊断价值的生物标志物。肺腺癌是一种常见的肺癌亚型,其早期症状不明显,临床诊断主要依赖于X线检查和病理切片检查,导致发现率低、预后差。因此,开展肺腺癌的早期诊断和精准治疗对于提高患者的存活率和生活质量具有重要意义。本研究旨在利用多组学数据和深度神经网络模型,预测肺腺癌并识别
学位
银行声誉风险是当今商业银行所面临的最严峻的风险之一。一旦银行声誉受损,不仅会影响其业务拓展,更会严重影响企业的信用和声望。因此,银行声誉堪称金融业的“生命线”,需要在新经济形势下给予更多的关注。银行需要利用互联网和新技术的优势,建立强大的风险监控机制,及时发掘和解决可能对声誉产生的负面影响。同时,银行也需对各分支行人员合理配置,加强员工的风险意识和管理能力,完善内部风险管控制度,优化服务流程、提高
学位
图像作为高效快速的信息传递载体,对于人们获取和传递信息具有重要意义。由于图像采集设备本身硬件条件的不足、人为因素和环境因素的干扰,导致采集到的往往是由原始图像经过一系列退化过程所得的低分辨率图像,易出现失真、模糊、噪声等现象。基于深度学习的图像超分辨率重建技术,可以在不依赖原始图像采集设备的条件下,通过算法建模的方式直接提取低分辨率图像的特征来提升图像的分辨率,是一种具有高性价比和高可行性的图像处
学位
表观转录学的兴起衍生出了诸多生物信息学分支,其中就有在生信研究中较为广泛的RNA化学修饰问题,该领域主要研究修饰位点的检测、测序以及不同修饰对生物遗传的影响。迄今为止,已有超过160种RNA化学修饰被发现,这些修饰对RNA的配对、剪接翻译以及转录稳定性方面都有着重要影响。而在信息技术发展前,RNA化学修饰检测主要依赖于高通量测序技术和质谱技术等实验方法,这些方法虽然能检测到修饰位点,但实验所耗费的
学位
学位