基于深度学习的蛋白质戊二酰化和S-亚硝基化位点预测研究

被引量 : 0次 | 上传用户:guigui198302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是一切生命的基石,承载着重要的生命活动。蛋白质翻译后修饰(Post-Translational Modification,PTM)是对翻译后的蛋白质共价加工的过程。正常PTMs能改变蛋白质结构和性质,调控蛋白质功能,而异常PTMs与人类疾病的发病机制密切相关。因此,探究PTMs机制对于理解蛋白质生物学作用,开发靶点药物等具有重要意义,准确识别PTMs位点是探究的关键。现有的识别PTMs位点的方法主要包括传统生物实验和机器学习方法。实验方法准确率高,但耗时耗力无法适应目前海量生物数据;基于序列信息的机器学习的预测方法大大提高了预测效率,降低了人工成本。然而,机器学习预测方法依赖手工特征提取,人为干预较大,对蛋白质序列信息挖掘不够深入,在非平衡数据集下容易过拟合,限制了模型的预测精度。近年来,深度学习发展迅速,它是由多层神经网络构成。在面向PTMs位点预测模型的构建中,深度学习仅需对序列简单编码,减少信息损失,适用于非平衡数据下提取样本序列的深层特征,可以实现更好的预测精度。本文选定两种翻译后修饰:赖氨酸戊二酰化修饰和半胱氨酸S-亚硝基化修饰。针对这两个PTMs,提出了两个深度学习预测框架。(1)本文针对赖氨酸戊二酰化位点预测问题,基于密集卷积网络-长短期记忆网络,开发了一种新的赖氨酸戊二酰化修饰位点的预测模型Glu-DClstm。首先对蛋白质序列进行简单的one-hot编码,其次通过密集卷积网络和长短期记忆网络组合模型挖掘捕获序列多层次和长期依赖特征信息,最后全连接层整合特征信息输出分类结果。该模型独立测试集的MCC和AUC值分别达到了0.39、0.80。与常见机器学习、深度学习模型以及现有的赖氨酸戊二酰化修饰位点预测模型相比,该模型对非平衡数据下的赖氨酸戊二酰化位点预测精度更高、效果更加优良,可为相关研究提供有效帮助。(2)本文针对半胱氨酸S-亚硝基化位点预测问题,提出了一种基于深度学习算法的预测器SNO-DCA,用于区分S-亚硝基化和非S-亚硝基化位点。首先对蛋白质序列进行one-hot编码,其次利用密集卷积网络捕捉序列中不同层级的特征信息,添加高效通道注意力模块对不同特征进行加权,调整代价敏感函数平衡数据集,最后通过全连接层整合特征,利用Softmax函数实现分类。训练集上十折交叉验证和独立测试集测试的结果表明SNO-DCA模型在非平衡数据集上的预测精度优于其他模型,MCC达到了0.32,AUC达到了0.81。此外为了给广大研究者提供便利,本文基于SNO-DCA模型建立了一个Web服务器预测网站:https://sno.cangmang.xyz/SNO-DCA/,为用户提供在线预测服务。
其他文献
生物柴油生产过程中副产的甘油可通过催化氢解转化为高附加值的1,2-丙二醇,被认为是一种甘油高效转化为高附加值产物的有效途径。由于Cu基催化剂具有较高的1,2-丙二醇选择性和相对较高的甘油氢解活性,因而被广泛用于甘油氢解制1,2-丙二醇的反应。论文以铜铝合金粉和拟薄水铝石为原料,经成型、干燥、焙烧和抽铝活化等步骤制备了一系列可用于固定床甘油氢解反应的Raney Cu/Al2O3催化剂,并对其进行了理
学位
龚易图是晚清福建著名藏书家,拥有乌石山房和大通楼两座藏书楼,藏书十四万卷。龚易图身居高位,历任山东、江苏、广东等地,是洋务运动的重要参与者;同时他是同光体闽派的重要前辈,一生交游极广,酷爱收集书籍,在保存福建前代藏书方面贡献颇大。本文以龚易图藏书为中心,围绕《大通楼藏书目录》和《乌石山房简明目录》展开考证,利用书籍史和阅读史等方面研究方法,研究龚氏藏书的整体面貌和意义,研究龚氏在传承福建文献方面的
学位
学位
高通量生物信息技术的快速发展,为癌症诊断提供了新的思路和手段。通过分析高通量组学数据,可以揭示癌症在分子水平上的变化,并找出具有诊断价值的生物标志物。肺腺癌是一种常见的肺癌亚型,其早期症状不明显,临床诊断主要依赖于X线检查和病理切片检查,导致发现率低、预后差。因此,开展肺腺癌的早期诊断和精准治疗对于提高患者的存活率和生活质量具有重要意义。本研究旨在利用多组学数据和深度神经网络模型,预测肺腺癌并识别
学位
银行声誉风险是当今商业银行所面临的最严峻的风险之一。一旦银行声誉受损,不仅会影响其业务拓展,更会严重影响企业的信用和声望。因此,银行声誉堪称金融业的“生命线”,需要在新经济形势下给予更多的关注。银行需要利用互联网和新技术的优势,建立强大的风险监控机制,及时发掘和解决可能对声誉产生的负面影响。同时,银行也需对各分支行人员合理配置,加强员工的风险意识和管理能力,完善内部风险管控制度,优化服务流程、提高
学位
图像作为高效快速的信息传递载体,对于人们获取和传递信息具有重要意义。由于图像采集设备本身硬件条件的不足、人为因素和环境因素的干扰,导致采集到的往往是由原始图像经过一系列退化过程所得的低分辨率图像,易出现失真、模糊、噪声等现象。基于深度学习的图像超分辨率重建技术,可以在不依赖原始图像采集设备的条件下,通过算法建模的方式直接提取低分辨率图像的特征来提升图像的分辨率,是一种具有高性价比和高可行性的图像处
学位
表观转录学的兴起衍生出了诸多生物信息学分支,其中就有在生信研究中较为广泛的RNA化学修饰问题,该领域主要研究修饰位点的检测、测序以及不同修饰对生物遗传的影响。迄今为止,已有超过160种RNA化学修饰被发现,这些修饰对RNA的配对、剪接翻译以及转录稳定性方面都有着重要影响。而在信息技术发展前,RNA化学修饰检测主要依赖于高通量测序技术和质谱技术等实验方法,这些方法虽然能检测到修饰位点,但实验所耗费的
学位
学位
m6A是真核信使RNA修饰中含量最丰富的一种修饰方式,在控制细胞功能和基因表达中起着重要的调节作用。m6Am也是RNA转录后修饰的一种方式,可能与细胞功能控制中的调节作用有关。然而,通过实验方法以单碱基分辨率检测m RNA中的m6A(m)位点仍然是一个挑战,而且这种方法通常耗时且昂贵。发展计算方法是从大量RNA序列数据中准确检测m6A(m)修饰位点的良好策略。因为准确地鉴定转录组范围内的m6A(m
学位
宫颈癌(CESC)是女性生殖道常见的一种发病率较高的恶性肿瘤,发生在子宫部位。近年来,宫颈癌的发病率和死亡率在全世界急剧上升。这种肿瘤大多在现有的医疗条件下是无法彻底治愈的,但如果早期发现,早做治疗,预后还是比较好的。随着生物信息学技术的快速发展,用生物信息学的各类组学数据对癌症进行相关探索已经成为当下科研人员感兴趣的研究课题。目前比较常见的有DNA甲基化数据,基因表达谱数据和拷贝数数据。目前大部
学位