【摘 要】
:
蛋白质是生命细胞的重要组成部分,也是生命活动的主要承担者。随着生物测序技术的发展,蛋白质序列数据得到了快速增长,而相对序列数据而言较少的蛋白质结构数据成为了研究蛋白质功能的主要瓶颈。对于蛋白质组学的研究,人们长期遵循“序列-结构-功能”范式,认为只有具有稳定结构的蛋白质才能够行使功能。但随着研究的深入,研究人员发现包含不稳定结构的蛋白质同样行使重要的生物学功能,并将这类蛋白质称为固有无序蛋白质。目
论文部分内容阅读
蛋白质是生命细胞的重要组成部分,也是生命活动的主要承担者。随着生物测序技术的发展,蛋白质序列数据得到了快速增长,而相对序列数据而言较少的蛋白质结构数据成为了研究蛋白质功能的主要瓶颈。对于蛋白质组学的研究,人们长期遵循“序列-结构-功能”范式,认为只有具有稳定结构的蛋白质才能够行使功能。但随着研究的深入,研究人员发现包含不稳定结构的蛋白质同样行使重要的生物学功能,并将这类蛋白质称为固有无序蛋白质。目前,采用生物实验技术测定固有无序蛋白质结构具有周期长成本高的缺点,开发快速高效的计算方法变得日益紧迫。本文以具有已知结构的蛋白质序列信息为基础,提出了多个固有无序蛋白质预测方法。本文主要研究内容包括以下几个方面:现有的大多数固有无序蛋白质预测方法是基于滑动窗口的,即以滑动窗口内的蛋白质子序列作为目标氨基酸残基的样本,从而缺乏对残基之间的结构依赖关系的考虑。针对这些方法忽略了蛋白质序列中相邻氨基酸残基之间结构依赖关系的问题,提出了基于条件随机场的固有无序蛋白质预测方法IDP-CRF(Intrinsically Disordered Protein prediction based on Conditional Random Fields)。本文基于四种蛋白质信息,包括进化信息、氨基酸组成信息、蛋白质二级结构信息和相对溶剂可及性信息,刻画蛋白质中每个氨基酸残基的状态特征,并结合转移特征构建了条件随机场预测方法IDP-CRF。实验结果表明,IDP-CRF方法与基于深度神经网络的SPOT-disorder方法取得了可比较性能,并优于其他单模型对比方法。该实验结果说明了相邻氨基酸残基之间的结构依赖关系对固有无序蛋白质预测具有重要意义。针对现有大多数预测方法对包含不同长度无序区域的蛋白质差异信息缺乏有效考虑的问题,提出了固有无序蛋白质预测方法IDP-FSP(Intrinsically Disordered Protein prediction by Fusing Specialized Predictors)。本文依据包含无序区域类型将蛋白质划分为三类:包含长无序区域的蛋白质、只包含短无序区域的蛋白质和包含一般无序区域的蛋白质。基于条件随机场,分别针对三类蛋白质构建预测模型,并采用逻辑回归模型对其整合,得到最终的预测方法IDP-FSP。实验结果表明,IDP-FSP的预测性能优于本文提出的IDP-CRF方法,说明分别对包含不同长度无序区域的蛋白质独立建模可以有效提高固有无序蛋白质预测方法的性能。针对现有的大多数固有无序蛋白质数据集不能模拟真实的蛋白质分布,导致预测结果具有较高假阳率问题,本文提出了结合完全有序蛋白质的卷积循环神经网络预测方法RFPR-IDP(Reduce False Positive Rate of Intrinsically Disordered Protein prediction)。真实世界中的蛋白质是由固有无序蛋白质和完全有序蛋白质组成的,因此,本文首先依据严格的筛选条件从蛋白质数据库中提取完全有序蛋白质序列。然后基于不同的固有无序蛋白质和完全有序蛋白质比例下的数据集,构建了能够学习氨基酸残基的局部序列模式,以及氨基酸残基的远距离依存关系的预测卷积循环网络预测模型,进而分析完全有序蛋白质的作用。实验结果表明,RFPR-IDP方法能够有效降低模型的假阳率。与对比方法相比,在模拟自然界中由不同比例的固有无序蛋白质和完全有序蛋白质组成的大部分数据集上,RFPR-IDP取得了最优的预测性能。针对不同预测方法对蛋白质信息的表征学习能力不同,不能全面利用蛋白质序列信息的问题,提出了固有无序蛋白质融合方法IDP-Meta(Meta method for Intrinsically Disordered Protein prediction)。本文首先结合多序列比对信息,基于长短时记忆网络提出了固有无序蛋白质预测方法IDP-MSA(Intrinsically Disordered Protein prediction based on Multiple Sequence Alignment)。在IDP-MSA的基础上,选取了与IDP-MSA方法中采用的蛋白质信息和机器学习方法具有差异性的两个固有无序蛋白质预测方法IDP-FSP和RFPR-IDP,进而提出了预测固有无序蛋白质的融合方法IDP-Meta。该方法能够获取不同方法的优势以及不同方法之间的互补信息。实验结果表明,与对比方法相比,IDP-Meta取得了最优的预测性能。
其他文献
推荐系统已经广泛地融入到了人们的日常生活,并在改善用户体验、提高企业效益方面发挥着重要的作用。但是,推荐系统普遍采用离线推荐方法,周期性地利用大量用户与物品的历史交互数据训练推荐模型,不能及时地捕获隐含在近期交互数据中的用户最新偏好,难以在流式场景中为用户精确地推荐物品。针对这一问题,研究者们提出了流式推荐方法,利用新接收到的交互数据即时地训练推荐模型,有效地捕获用户的最新偏好,从而在流式场景中提
在高频地波雷达系统中,改善杂波抑制效果、提高目标检测性能的有效手段是充分利用目标与杂波在多个维度上的差异,例如,回波的二维波达方向(direction-of-arrival,DOA)以及极化信息的利用都被证明可以带来显著的性能提升。因此,快速、可靠地估计二维DOA和极化参数至关重要。高频地波雷达背景下的阵列信号参数估计通常面临入射信号相关性强、可用快拍数少等问题,传统算法虽然统计意义明确,但大多要
2019年中国进入了高等教育普及化时代,借鉴欧美发达国家高等教育的发展规律,高等教育空间与设施将成为城市中日益重要的角色,并将进一步突出以使用者为中心的空间营造。同时,我国快速的城镇化进程加剧了对能源和自然资源的超常规利用,在倡导资源节约型和环境友好型社会的总体要求下,针对大学校园的设计、建造与管理,国家教育部发展规划司与住房和城乡建设部提出了以节能、节地、节水、节材为核心的绿色校园设计导则,为大
微纳米尺度力学测试技术的发展对微纳米器件的应用具有重要意义。由于微纳米尺度薄膜材料几何尺寸的限制,以及其力学、物理性质等与宏观块状材料有显著的不同,传统试验方法及测试理论已不能满足其发展需求。纳米压痕技术具有测试分辨率高、试样制备简单等优点,得到研究者的广泛关注,但随着新材料的不断应用,存在测试理论不全面、应用范围窄等问题亟待解决。本论文以完善不同薄膜材料体系的本构模型反演方法为目的,分析凸起效应
中东铁路是19世纪末20世纪初由俄国在中国东北修筑的一条具有殖民性质的铁路,也直接促进中国东北开启了从农业文明向工业文明过渡的现代转型。在转型过程中,西方近现代建筑技术借由俄国之手向铁路沿线地域传播扩散,传统的木质抬梁结构逐渐瓦解,新型的砖混结构、钢结构、钢筋混凝土结构扎根蔓延,同时受东北地域严寒气候环境、社会政治、地形地貌、本土文化等诸多语境因素的直接影响,中东铁路近代建筑技术因材致用、因地制宜
神经机器翻译模型的学习往往依赖大规模的平行语料,然而并不是所有语言对都有充足的平行语料。为了解决神经机器翻译中平行语料缺失的问题,研究人员提出无监督神经机器翻译,通过无监督预训练策略、去噪自编码器、反向翻译和共享潜在表示机制仅依赖于单语语料对翻译任务进行建模。本文针对无监督神经机器翻译,主要研究以下四个方面:1.基于伪平行数据的无监督神经机器翻译及不相似语言对分析。虽然无监督神经机器翻译在一些相似
智能问答是自然语言处理领域中的关键任务之一,其目的是为用户提出的自然语言查询自动提供答案。根据面向数据源的不同,智能问答可以分为面向结构化数据的自动问答和面向非结构化数据的自动问答。结构化数据包含知识图谱,表格等。非结构化数据包含自然语言文档,社区中的用户生成内容等。结构化数据相较于无结构化数据,其包含的信息歧义小,易于解析。表格数据属于一种结构化数据,它具有较高的时效性,易于维护且数量巨大。表格
目标跟踪是从图像/信号处理、生物医学工程和计量经济学等各个学科中出现的富有挑战性的研究领域,问题的核心在于结合观测数据和先验知识,提供可靠、准确和及时的状态和连续轨迹的估计。早期的研究主要集中在单目标跟踪问题上,其主要挑战在于如何精准的估计目标状态。相比于单目标跟踪,多目标跟踪问题更为复杂,其实质是在给定一系列观测值的情况下,对跟踪场景中数目未知和时变的目标的状态和轨迹进行估计。除了目标数量随时间
目前电驱动系统广泛使用稀土永磁同步电机作为驱动单元,然而传统稀土永磁同步电机存在永磁磁场调节困难,扩速运行范围受到限制的问题,仍不能很好地满足电动汽车等工况变化频繁、转速范围宽、同时需要高效率运行的应用领域的需求。可调磁通电机通过施加充磁或去磁脉冲磁势改变低矫顽力永磁体的磁化状态,可以实现拓宽电机转速范围、提高效率的目的。组合使用高矫顽力永磁材料与低矫顽力永磁材料的混合永磁可调磁通电机是该类电机的
我国是世界第三冻土大国,冻深超过0.5 m且对工程有重要影响的季节冻土面积达4.46×106 km2,主要分布在东北、内蒙大部分地区与西部部分地区。同时,我国也是膨胀土分布最广泛的国家之一,涵盖20多个省、市、自治区。当今,我国已进入加快发展高速轨道交通的崭新时期,工程实践和病害调查表明,在我国季节冻土区发育大面积的深厚残坡积膨胀土,该膨胀土区域多地下水丰富、浅表。季节冻土区膨胀土因其复杂的湿胀-