基于多视角学习算法的蛋白质折叠识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:guipaeren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量基因测序技术的发展,人们已经积累了大量的蛋白质序列数据,但是对应的蛋白质结构预测及功能的分析与研究却不足。面对海量的蛋白质序列,如何高效预测对应的蛋白质结构和功能,成为生物序列分析的研究热点之一。蛋白质折叠识别的相关研究对预测蛋白质结构和分析功能有重要意义。近几十年来研究者们提出了众多面向蛋白质折叠识别的机器学习算法,这些算法大多关注于设计强鉴别性的向量化特征和分类器以获得更好的识别效果。然而,这类算法存在诸多问题:(1)基于判别式的算法利用序列不同属性的特征构建,但是融合特征中可能存在大量的信息冗余;(2)现有的分类模型不能充分利用序列之间的相似关系等。源自蛋白质序列不同属性的多视角特征及其分类是解决以上问题的一种有效方法。本文主要研究用于蛋白质折叠识别的多视角学习算法,旨在提出强鉴别性的多视角学习模型来解决以上问题,并提升识别算法的性能。本文的主要内容如下:(1)针对多种属性的拼接特征包含冗余信息的问题,本文提出了一种基于多种蛋白质序列鉴别性特征的多视角学习算法。该模型利用基于L2,1范数的稀疏投影矩阵构造潜在子空间,并提取每个视角的鉴别性特征;采用鉴别性强的回归目标函数,来扩大不同类别之间距离。在多个真实的蛋白质数据集上的实验结果表明,本文提出的算法能有效地利用不同属性的特征并提高分类性能。(2)针对单一比对算法的结果存在假阳性的问题,本文提出了一种基于多种序列相似度特征的多视角学习算法。该算法利用三种基于序列不同属性的算法得出的序列之间的相似度来构建多视角特征;构建数据分布更合理的潜在子空间,来有效利用不同视角的互补性信息与一致性信息。为了进一步提高比对算法打分的准确性,本文提出了一种基于多种伪蛋白质序列相似度特征的多视角学习算法。该模型将原始序列转化为包含进化信息的伪蛋白质序列。在实际的蛋白质折叠识别数据集上的实验结果表明了这两种算法的有效性。(3)针对序列相似性分析与利用不够充分的问题,本文提出了一种基于图嵌入的多视角学习算法。该算法通过构造拉普拉斯矩阵表征每个视角中蛋白质序列之间的相似关系;通过引入自适应加权技术来平衡各个视角的作用,以得到数据分布更紧凑的潜在子空间。该潜在子空间表示不同视角之间的共有信息,用于蛋白质折叠识别。实验结果表明,该模型能够较好利用每个视角序列数据之间蕴含的相似关系并提高蛋白质折叠识别精度。(4)针对比对算法构造的相似度特征含有噪声和单一检测算法性能局限的问题,本文分别提出了基于低秩约束的多视角学习算法和联合基于低秩约束的多视角学习算法和比对算法的决策融合算法。该算法旨在提取每个视角的低秩特征,可抑制不同比对算法得出的相似度特征的噪声的影响;同时将加权融合策略与强鉴别性的回归目标函数相结合,以更好地拟合蛋白质折叠任务。此外,本文通过一种有效的决策融合策略来利用不同方法的预测结果。在多个蛋白质折叠数据库上的实验结果表明,所提出的算法能有效提升模型的预测性能。综上所述,在深入研究和讨论蛋白质折叠识别问题的基础上,本文提出了面向蛋白质折叠识别的多种基于多视角学习算法,并从理论角度分析提出的模型的合理性。在多个数据集上的实验结果验证了本文提出的多视角学习算法的有效性。
其他文献
随着遥感技术的发展与光谱成像技术水平的提高,高光谱成像技术作为新式对地观测手段,得到了越来越多的关注。高光谱影像能够在较广的光谱域范围内以极高的光谱分辨率记录地物光谱辐射信息,为地物类别分辨提供了数据支持。然而由于现阶段成像设备存在空间分辨率与光谱分辨率无法兼顾的限制及成像场景的复杂性,图像空间分辨率的不足导致单一像元的光谱是不同物质光谱的混合,为图像的精细分类、统计分析与微弱目标检测等带来了困难
深空探测是是人类获取太空知识,走向宇宙深处,实现自我认知的伟大征程。脉冲星的发现为探索大尺度时空提供了新方向,同时X射线脉冲星导航作为一种新兴的天文自主导航方式,它利用X射线脉冲星天体分布特点和宇宙灯塔特性为航天器提供导航信息,尤其适用于深空导航。本文针对X射线脉冲星信号处理领域的关键问题,利用脉冲星自转周期稳定、脉冲星信号循环平稳的特点,提取有效频域和时域特征,并结合与特征模型相匹配的神经网络,
力学-经验法是沥青路面结构设计最主要的设计方法,研究路面力学体系与分析方法是其核心问题。大多数国家和地区的公路沥青路面结构设计是以双圆均布垂直荷载下的层状弹性体系力学作为路面结构的力学模型,并且在沥青路面结构时只考虑单车道荷载的影响。然而,众多研究结论表明汽车轮胎接地压力并非呈圆形均布垂直荷载形式,且沥青混合料在环境温度作用下尤其是在高温条件下表现出黏弹/非线性黏弹性质,同时在结构分析中应考虑大交
超构表面是由亚波长几何尺寸人造结构组成的超薄功能器件,通过利用单层或少层人造结构的共振响应来对散射场进行操控,进而在亚波长传播距离上实现对入射波波前形貌以及传播方向的灵活控制。由于波前形貌整形和波束传输控制的本质都是对波前相位分布进行操控,故衡量超构表面组成单元性能的一个重要指标是可以实现散射场相位0°到360°的连续调制。梯度超构表面通过周期排列具有0°到360°范围内线性离散相移的结构单元,可
随着社会教育水平的提升,幼小衔接逐步得到重视。本文中,笔者主要从现今幼儿园教育小学化现状出发,探讨合理的幼小衔接的意义。同时,对应该如何组织与实施幼小衔接进行进一步研究,分别对在幼儿园一日生活以及在家园合作中的幼小衔接教育进行阐述。
自然界中随机现象无处不在,用确定性微分方程来刻画此类现象已达不到人们对建模的精度要求了。随机微分方程能很好地模拟各种随机问题,现已在遗传学、金融学、化学工程、航天控制等领域得到了广泛应用。但通常很难获得随机微分方程精确解的显式表达式,因此研究随机模型的数值方法具有重要意义。本文主要探讨了求解几类非线性随机微分方程数值格式的收敛性、稳定性和保正性等性质。主要包含了如下几个方面的工作。针对高度非线性随
为了克服传统钢筋混凝土结构相对耗能能力较弱、抗剪储备不足等问题,钢管、型钢与混凝土组成的组合结构已广泛应用于建筑与桥梁结构中,但在钢-混凝土组合结构中仍未克服钢材的锈蚀问题。纤维增强复合材料(Fiber Reinforced Polymer,FRP)因轻质高强、便于施工、耐腐蚀性能好和抗疲劳性能好等特点,近年来逐渐替代钢材应用于新建混凝土结构中。将FRP管与钢骨、混凝土组合形成新型的组合柱,置于外
高重频大能量的亚纳秒脉冲激光在多普勒激光测风雷达、空间碎片激光雷达探测、汤姆逊散射诊断、医学激光美容等领域有着重要而广泛的应用。受激布里渊散射(SBS)是一种将纳秒长脉冲压缩至亚纳秒脉冲的简单高效的脉宽压缩技术,该技术与主振荡功率放大(MOPA)技术结合可以解决激光器在高重频、大能量、亚纳秒脉冲和高效率参数方面难以同时兼顾的问题。然而,目前SBS脉冲压缩的工作重复频率局限于200 Hz以下。为了获
金属材料是人类生产生活过程中最重要的材料之一,其通常作为结构材料应用。结构材料中力学性质是其首要考量,而在力学性质中,弹性性质是最基本但又最为基础的性能之一。根据弹性性质能进行多种优异性能的预测,如难熔合金中表现出的橡胶金属、生物医用特性等。目前0K下的二阶弹性常数可轻易的通过第一性原理计算获得,而目前对于外界条件(如高温、高压等)下的弹性常数获取困难。因此,如何快速评估材料在外界条件下的弹性性质
近年来,随着矿业、电镀、制革等与金属相关工业的快速发展,大量含重金属的工业废弃物、工业污水通过各种途径进入生物圈内,引发了一系列环境问题。由于重金属无法被生物降解,且能通过生物链循环进入植物体、动物体,最终会危害人类健康。随着人们生活水平的提高和环保意识的增强,高效、简易、低成本的重金属污染物处理措施成为了研究热点。水泥基材料被广泛应用于含重金属固废的固化处理,但处理后的固化体存在体积稳定性差、重