【摘 要】
:
表观转录学的兴起衍生出了诸多生物信息学分支,其中就有在生信研究中较为广泛的RNA化学修饰问题,该领域主要研究修饰位点的检测、测序以及不同修饰对生物遗传的影响。迄今为止,已有超过160种RNA化学修饰被发现,这些修饰对RNA的配对、剪接翻译以及转录稳定性方面都有着重要影响。而在信息技术发展前,RNA化学修饰检测主要依赖于高通量测序技术和质谱技术等实验方法,这些方法虽然能检测到修饰位点,但实验所耗费的
论文部分内容阅读
表观转录学的兴起衍生出了诸多生物信息学分支,其中就有在生信研究中较为广泛的RNA化学修饰问题,该领域主要研究修饰位点的检测、测序以及不同修饰对生物遗传的影响。迄今为止,已有超过160种RNA化学修饰被发现,这些修饰对RNA的配对、剪接翻译以及转录稳定性方面都有着重要影响。而在信息技术发展前,RNA化学修饰检测主要依赖于高通量测序技术和质谱技术等实验方法,这些方法虽然能检测到修饰位点,但实验所耗费的时间和经济成本普遍较高,检测效率较低。因此开发计算机算法检测RNA化学修饰是必要的。另外,在测序问题中非平衡数据的测序又是重难点,因为传统机器学习模型大多适用于平衡数据,而本课题在两种RNA化学修饰(m6A和m6Am)的序列中获得重要特征,利用深度学习模型的类权重处理非平衡数据,均表现出了良好的预测性能。N~6-甲基腺苷(m6A)是一种RNA转录后修饰,是典型的RNA甲基化修饰之一,主要在m RNA编辑、降解等方面发挥重要作用。针对m6A,本课题提出了一种基于多分支型CNN的m6A位点预测模型m6A-CNLs,该模型首先采用三种编码方式编码RNA序列,再将三种编码信息分别输入到三个卷积神经网络模型(CNN)中获得三组新的特征,然后再将三种特征拼接并入新的特征空间,最后进行分类预测,另外我们在每个CNN中加入了LSTM模型,用于捕获前后文信息。最终在该模型下,本课题研究的m6A非平衡数据集在独立测试集上取得Sn=0.782;Sp=0.968;ACC=0.951;MCC=0.719,在交叉验证上m6A-CNLs模型也显示出了良好的性能,充分说明该模型在m6A位点预测上效果显著可靠。N6,2’-O-二甲基腺苷(m6Am)是一种较新的RNA可逆修饰,对m RNA的生命过程有着重要影响,但现阶段对m6Am的生物学功能探索还不够。所以本课题将Transformer和双向门控循环单元(Bi-GRU)有机结合,利用顺序自然数编码提取特征,提出了一种新的端到端“双胞胎”深度学习网络m6Am Twins。与很多算法相比,该模型在两组非平衡数据集上的性能均有明显提升,在独立测试集上全转录本数据的Sn、Sp、ACC、MCC分别为0.709、0.921、0.902、0.53,成熟RNA数据的Sn、Sp、ACC、MCC分别为0.645、0.945、0.918、0.545。另外通过训练集的交叉验证结果,进一步说明了该模型具有良好的泛化能力。本课题研究的m6A和m6Am位点,都是目前RNA化学修饰位点中的热门,同时本课题从生物特性和进化规律角度出发,开发了基于两种修饰位点非平衡数据下的预测模型,为该领域非平衡分类以及RNA化学修饰的生物学功能研究提供了一定的帮助。
其他文献
在化石能源日益减少和环境恶化的双重压力下,生物柴油已经成为传统石化燃料的一个重要补充。但国内源于废弃油脂的生物柴油含有一定量的硫化物和大量的多不饱和脂肪酸甲酯,其作为燃料排放的清洁性、十六烷值、储存稳定性、凝点均受到影响,急需进行加氢脱硫和改质,以制备低硫含量、氧化稳定性高的单不饱和脂肪酸甲酯。但目前国内脱除生物柴油中硫化物的技术基本没有报道、生物柴油选择加氢改质技术报道也较少。为此,本论文设计并
燃料油中硫化物的燃烧过程所排放的SO2对大气环境构成危害。近些年来,由于开采原油的质量逐渐趋于重质化及高硫化,导致油品中硫含量越来越高,而随着人们环保意识不断提高,相关的环境法规对硫排放限制日趋严格,因此,积极开展油品脱硫相关技术的研究显得尤为紧迫。论文主要围绕制备一种新型的负载型骨架金属脱硫吸附剂并用于油品脱硫的工作展开研究。以镍铝合金粉和拟薄水铝石为原料,通过混捏成胶、挤条成型、干燥焙烧、碱溶
氮、磷污染造成的水体污染是影响社会可持续发展的重要隐患,成为目前亟需解决的环境问题之一。目前常用的脱氮除磷技术主要是基于易降解有机碳源的异养反硝化和强化生物除磷工艺。它们在处理低C/N废水时存在依赖外加有机碳源、工艺复杂,成本较高等问题。而硫自养反硝化工艺因无需外加碳源,成本低廉,无二次污染风险,污泥产量低等优点受到广泛关注,但是人们对于硫自养反硝化工艺的除磷行为很少深入研究。本研究利用从普通厌氧
随着我国环境污染问题日益突出以及人们对环保意识的不断增强,瓦楞纸包装成为“绿色包装”的主要手段。目前针对纸箱成型机械的研究日益成熟,而对纸箱内部隔板成型机械的研究还处于初级研发阶段,随着人们对商品分区防护以及美观要求的不断提高,纸板成型机械成为企业研究的热点。本课题在安川首钢机器人有限公司为蒙牛牛奶包装生产线设计的纸板成型机的基础上,针对机构使用寿命低,零件易发生失效破坏等问题,基于虚拟样机技术,
生物柴油生产过程中副产的甘油可通过催化氢解转化为高附加值的1,2-丙二醇,被认为是一种甘油高效转化为高附加值产物的有效途径。由于Cu基催化剂具有较高的1,2-丙二醇选择性和相对较高的甘油氢解活性,因而被广泛用于甘油氢解制1,2-丙二醇的反应。论文以铜铝合金粉和拟薄水铝石为原料,经成型、干燥、焙烧和抽铝活化等步骤制备了一系列可用于固定床甘油氢解反应的Raney Cu/Al2O3催化剂,并对其进行了理
龚易图是晚清福建著名藏书家,拥有乌石山房和大通楼两座藏书楼,藏书十四万卷。龚易图身居高位,历任山东、江苏、广东等地,是洋务运动的重要参与者;同时他是同光体闽派的重要前辈,一生交游极广,酷爱收集书籍,在保存福建前代藏书方面贡献颇大。本文以龚易图藏书为中心,围绕《大通楼藏书目录》和《乌石山房简明目录》展开考证,利用书籍史和阅读史等方面研究方法,研究龚氏藏书的整体面貌和意义,研究龚氏在传承福建文献方面的
高通量生物信息技术的快速发展,为癌症诊断提供了新的思路和手段。通过分析高通量组学数据,可以揭示癌症在分子水平上的变化,并找出具有诊断价值的生物标志物。肺腺癌是一种常见的肺癌亚型,其早期症状不明显,临床诊断主要依赖于X线检查和病理切片检查,导致发现率低、预后差。因此,开展肺腺癌的早期诊断和精准治疗对于提高患者的存活率和生活质量具有重要意义。本研究旨在利用多组学数据和深度神经网络模型,预测肺腺癌并识别
银行声誉风险是当今商业银行所面临的最严峻的风险之一。一旦银行声誉受损,不仅会影响其业务拓展,更会严重影响企业的信用和声望。因此,银行声誉堪称金融业的“生命线”,需要在新经济形势下给予更多的关注。银行需要利用互联网和新技术的优势,建立强大的风险监控机制,及时发掘和解决可能对声誉产生的负面影响。同时,银行也需对各分支行人员合理配置,加强员工的风险意识和管理能力,完善内部风险管控制度,优化服务流程、提高
图像作为高效快速的信息传递载体,对于人们获取和传递信息具有重要意义。由于图像采集设备本身硬件条件的不足、人为因素和环境因素的干扰,导致采集到的往往是由原始图像经过一系列退化过程所得的低分辨率图像,易出现失真、模糊、噪声等现象。基于深度学习的图像超分辨率重建技术,可以在不依赖原始图像采集设备的条件下,通过算法建模的方式直接提取低分辨率图像的特征来提升图像的分辨率,是一种具有高性价比和高可行性的图像处