基于局部特征表达和全局统计降维算法的蛋白质亚细胞定位研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:embedwince
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质在亚细胞中的位置与其功能有着密切的关系,这使蛋白质亚细胞定位成为生物学中的一个研究热点。随着海量生物数据的发现,传统生物实验不能满足要求,计算机的高效率帮助生物学家省时、省力,使其成为蛋白质亚细胞位置预测的重要工具。本文主要工作是提出两种局部特征表达和利用全局统计降维算法分析蛋白质数据的影响,主要包括以下三个方面。一、提出一种局部特征表达PSSM-SAA,然后与全局统计降维算法LDA相结合平衡提取的信息。PSSM-SAA基于PSSM分段分布得来,该方法首先在PSSM矩阵中利用分段思想将蛋白质序列分割成长度不等的子序列,然后提取各个子段中氨基酸的分布密度,最后PSSM-SAA使每一条蛋白质序列都可以被表示成一个1600维的特征向量。PSSM-SAA包含了蛋白质局部进化过程中各个氨基酸分布的差异性。为了减少数据冗余,使用了保留全局信息的线性判别分析(linear discriminant analysis,LDA)对 PSSM-SAA 进行数据降维。PSSM-SAA 与 LDA 相结合成一个蛋白质亚细胞定位的预测模型,这样平衡了特征表达中的局部信息与数据降维中的全局信息。实验表明经过PSSM-SAA提取的蛋白质序列局部信息,使用LDA可以对其全面、有效地降维,从而证明PSSM-SAA方法与LDA算法相结合的模型性能良好。二、在蛋白质亚细胞定位中,一般都是简单的使用降维算法来减少数据冗余,有关于降维算法对蛋白质数据影响的研究相对较少。本文针对这个问题,引入了两种针对人脸数据存在离群值、某类中心偏离问题所提出的降维算法:中值线性判别分析(median Linear discriminant Analysis,MDA)和基于中值均值线的判别分析(median-mean line based discriminant analysis,MMLDA),将它们与经典的 LDA算法作对比。实验表明MDA,MMLDA相较于LDA的结果并没有更好,可能是由于在细菌蛋白质数据中,离群值、某类中心偏离其他类中心这类问题表现的不明显。在这类数据中,我们使用经典的LDA就可以取得较好的效果,从而进一步证实PSSM-SAA方法与LDA算法相结合的模型是有效可行的。三、本文还尝试一种包含二级结构预测信息的局部特征表达方法来预测蛋白质亚细胞位置,该方法是通过Chou-Fasman方法预测蛋白质序列中各肽段的二级结构类型得到的。实验表明这种想法还是有很大的探索空间和可能性。
其他文献
无线传感器网络(Wireless Sensor Networks,WSNs)是当下信息领域中研究的热门方向之一,可用于特殊环境实现信号的采集、处理和发送。作为一种新颖的信息采集和处理技术,无线
ART DECO风格近些年呈现出逐渐回归于其传统的建筑设计、室内设计和工业造型设计领域的趋势,该风格已融入到了图形设计、工艺美术、时装设计和影视艺术等诸多方面。ART DECO
随着语义网的发展,RDF数据越来越多地应用于各个场景,其数据规模不断增长。为了更好地应用这些数据的价值,并且满足现今RDF数据规模巨大的需求,需要设计一套能处理RDF大图数
随着微电子产业的飞速发展,射频无线接收机技术也日新月异,基于CMOS工艺的多模多频接收系统在成本上较单一系统的接收机优势明显,在无线通信领域中受到了广泛的关注。滤波器
近年来,柔性可穿戴光探测设备在通信、健康和安全等领域受到关注,而紫外光探测设备由于其抗干扰能力强、探测灵敏度高等优势在民用和军用领域应用广泛。目前所报道的纤维状、织物状柔性紫外光探测器普遍存在机械强度不高、界面接触弱等柔性性能不佳的问题,且器件组装工艺复杂,难以实现柔性可穿戴的应用。因此,本论文采用可兼容工业化量产的全溶液工艺,制备了光响应性能优异且具有高柔性、高机械强度的柔性紫外光探测器。本论文
党的十九大报告指出,深化金融体制改革,增强金融服务实体经济能力,健全货币政策和宏观审慎政策双支柱调控框架,健全金融监管体系,守住不发生系统性金融风险的底线。在银企间存在极强的信贷关联情况下,实体经济与金融体系之间势必会出现风险反馈效应:企业贷款违约的出现,必然导致银行坏账的增多和不良资产率的上升;银行在遭受资产损失后或违约概率提高后信贷宽松政策的调整会直接影响企业的资金流动性,尤其是核心银行的信贷
序列比对是生物信息学的重要基础。Smith-Waterman算法是序列比对中使用最为广泛的算法。它采用动态规划的思想,计算序列中最为相似的序列片段。由于生物信息迅速增长,加速和
将疏水性环氧合酶抑制剂氟比洛芬(flurbiprofen)连接在顺铂(cisplatin)轴向合成一种全新的四价铂前药 cis,cis,trans-[Pt(Ⅳ)(NH3)2Cl2(flurbiprofen)2](Platin-FP)。通过1H,
随着知识图谱的兴起和发展,资源描述框架(RDF)作为灵活的图数据模型,已被广泛认可作为描述大规模知识图谱的标准数据格式。在RDF知识图谱上实现高效、可扩展的查询操作已经引
调度问题是一类具有广泛应用背景的组合优化问题,调度的主要目的是对有限资源的合理分配,以获得最大的经济效益。随着调度问题的复杂化,已经无法仅仅依靠经验来解决调度问题,这时候,一个高效的调度算法显得尤为重要。由于调度流程和环境的复杂化,调度问题不断多样化,且演化出多种具有不同特征的调度问题。其中,批调度问题就是对经典调度问题的扩展和延伸。批调度问题是将一定数量的工件同时使用批处理机进行加工的问题,广泛