机器学习框架下的戊二酰化位点预测

被引量 : 0次 | 上传用户:gongzheyy86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质翻译后修饰(PTM)作为协调各种生物过程和功能的关键,广泛存在于动植物蛋白质功能的机制中。戊二酰化是一种蛋白质翻译修饰,发生在蛋白质中特定赖氨酸残基的活性ε-氨基上,与各种人类疾病有关,包括糖尿病、癌症和戊二酸尿I型。因此,对于蛋白质戊二酰化位点的预测显得尤为重要。随着计算机科学的发展进步,基于计算方法的蛋白质翻译后修饰位点的预测已成为新的研究方向,并可以解决传统实验方法昂贵且费时的缺陷。本文应用机器学习和深度学习方法,对蛋白质戊二酰化位点预测进行研究。从组成蛋白质序列的氨基酸残基角度看,能发生蛋白质翻译后修饰的氨基酸残基(也即位点)总是占极少数的,这造成了带有翻译后修饰位点的氨基酸序列(正样本)和不带有翻译后修饰位点的氨基酸序列(负样本)之间的数量极不平衡,严重影响了模型预测的性能。鉴于此,本文设计了一种基于对无标签样本进行筛选的算法——紧密筛选(Close Screening),来解决戊二酰化正负样本不平衡的问题,并结合Light GBM集成学习分类模型,提出了名为CS-i Glu的预测模型。实验表明,该模型对于正样本的预测具有一定优势,在十折叠交叉验证上的灵敏度(Sn)、特异性(Sp)、准确度(ACC)、马修斯相关系数(MCC)和曲线下面积(AUC)分别为78.27%、69.16%、73.53%、0.4755和0.8127。针对CS-iGlu模型泛化能力不足的缺陷,本研究采用注意力残差学习方法和Dense Net,开发了一个新颖的基于深度学习的戊二酰化位点预测模型Deep DN_iGlu。本研究利用焦点损失函数代替传统的交叉熵损失函数来解决正负样本数量严重不平衡的问题。可以注意到,基于深度学习模型的Deep DN_i Glu在采用简单的onehot编码方法后,为戊二酰化位点预测提供了更大的潜力,在独立测试集上,灵敏度(Sn)、特异性(Sp)、准确度(ACC)、马修斯相关系数(MCC)和曲线下面积(AUC)分别为89.29%、61.97%、65.15%、0.33和0.80。据作者所知,这是Dense Net首次用于预测戊二酰化位点。Deep DN_i Glu已被部署为一个web服务器(https://bioinfo.wugenqiang.top/~smw/DeepDN_iGlu/),可使戊二酰化位点预测数据更易于访问。
其他文献
学位
m6A是真核信使RNA修饰中含量最丰富的一种修饰方式,在控制细胞功能和基因表达中起着重要的调节作用。m6Am也是RNA转录后修饰的一种方式,可能与细胞功能控制中的调节作用有关。然而,通过实验方法以单碱基分辨率检测m RNA中的m6A(m)位点仍然是一个挑战,而且这种方法通常耗时且昂贵。发展计算方法是从大量RNA序列数据中准确检测m6A(m)修饰位点的良好策略。因为准确地鉴定转录组范围内的m6A(m
学位
宫颈癌(CESC)是女性生殖道常见的一种发病率较高的恶性肿瘤,发生在子宫部位。近年来,宫颈癌的发病率和死亡率在全世界急剧上升。这种肿瘤大多在现有的医疗条件下是无法彻底治愈的,但如果早期发现,早做治疗,预后还是比较好的。随着生物信息学技术的快速发展,用生物信息学的各类组学数据对癌症进行相关探索已经成为当下科研人员感兴趣的研究课题。目前比较常见的有DNA甲基化数据,基因表达谱数据和拷贝数数据。目前大部
学位
蛋白质是一切生命的基石,承载着重要的生命活动。蛋白质翻译后修饰(Post-Translational Modification,PTM)是对翻译后的蛋白质共价加工的过程。正常PTMs能改变蛋白质结构和性质,调控蛋白质功能,而异常PTMs与人类疾病的发病机制密切相关。因此,探究PTMs机制对于理解蛋白质生物学作用,开发靶点药物等具有重要意义,准确识别PTMs位点是探究的关键。现有的识别PTMs位点的
学位
组合优化问题指的是从一组对象中选择若干满足约束条件的对象,同时优化某个目标函数,从目标函数的所有可行解中寻找最能符合原问题约束要求的最优解。典型的组合优化问题包括旅行商问题、背包问题、装箱问题,常用的求解方法有分支定界法、动态规划法等。狼群算法是通过模拟自然界中狼群追踪猎物的行为,利用多个狼群的协同搜索对目标问题进行求解的群智能优化算法。该算法具有全局搜索能力强、收敛速度快、适应性强以及可扩展性好
学位
随着人工智能以及工业技术的快速发展,现代制造业也异军突起。传统的陶瓷产业的发展较为滞后,随着3D打印技术的出现,现在已经可以实现智能化的陶瓷生产,但目前对于个性化陶瓷产品的智能设计研究较少。由于陶瓷种类繁多且名称繁杂,并且非专业人员对陶瓷器型以及陶瓷制造技术认识不全面,导致其设计存在周期长、难度大的问题。针对这些问题,本课题研究并开发了满足多模态需求的个性化陶瓷产品智能设计系统,通过人工智能技术能
学位
学位
互联网的快速发展推动着大数据时代的到来,人们每天接收的信息在爆炸式的增长,对海量数据的存储能力和计算能力的高要求正在推动着大数据技术的进步。如今越来越多的用户活跃在各大网络平台上,喜欢通过文字表达自己的情感,随之而来的是海量文本数据的产生,如何对这些海量文本进行情感分析成为当下的研究热点。云计算技术的出现为海量数据的存储和计算提供了基础条件,从而推动着大数据技术生态的蓬勃发展,其中Spark作为计
学位
陶瓷是中国古代的伟大发明,具有高熔点、不易氧化、易清洗等优点,并对酸、碱、盐具有良好的抗腐蚀能力,可以长时间储存而不变质不变色,因此成为优秀的文化艺术载体。“陶大定制”和“瓷语故事”是本人所在团队开发的两款微信小程序,前者是一款陶瓷产品个性化定制程序,后者应用新一代信息技术,通过识别陶瓷表面的个性化定制图案,匹配图案背后的故事和其文化属性。其关键技术就是实时的图案精准识别,达到100%匹配不出差错
学位
学位