【摘 要】
:
蛋白质提纯是蛋白质工程中一个重要的研究课题,提纯方法主要与蛋白质属性相关,但并非简单的一一对应。现有提纯方法主要依靠试验人员根据蛋白质属性按照历史经验选择,且提纯
论文部分内容阅读
蛋白质提纯是蛋白质工程中一个重要的研究课题,提纯方法主要与蛋白质属性相关,但并非简单的一一对应。现有提纯方法主要依靠试验人员根据蛋白质属性按照历史经验选择,且提纯试验过程复杂,成本较高。考虑到目前已有大量成功的提纯经验文献,可以根据提纯方法与蛋白质属性的相关性,利用数据挖掘中的分类方法来取代传统的工艺摸索方式,实现蛋白质提纯方法的快速摸索。在分类准确率相同的条件下,朴素贝叶斯算法(Naive Bayes,NB)与神经网络、K-means等分类算法相比较,具有快速性、高效性、简洁性。为了减少计算的复杂度,传统朴素贝叶斯算法默认有两个假设,即:样本全部属性均为相互独立分布;数值型连续属性均满足正态分布。这种假设在一定范围内简化了问题,并达到很好的分类效果。但是,朴素贝叶斯算法的分类精度主要由样本数据的完整性和样本属性的性质综合决定。而在蛋白质提纯过程中,经验文献的表述不尽相同,在获取蛋白质样本数据的过程由于各种无法预测的原因总会出现数据的缺失,蛋白质样本属性也无法始终满足上述两条假设,从而导致分类精度降低。因此直接使用传统朴素贝叶斯方法,并不能有效实现提纯方法的快速摸索。据此,本文在朴素贝叶斯分类算法基础上,建立了一种新算法——EM-KDNB。首先构建属性贝叶斯网络,引入EM算法利用不完整的数据进行参数学习,通过初始化缺失参数,并为每个潜在的初始值赋予权值,建立临权样本,利用新样本迭代收敛至局部最优,填补缺失的参数;然后,基于核密度估计(Kernel Density Estimation),利用分布密度函数(Distribution Density)和选取的局部数据来分析计算最大后验概率,完成分类。通过实验验证,新算法对缺失数据有一定程度的填补效果,对样本不满足正态分布的连续属性具有更好的适应性,分类精度较传统朴素贝叶斯算法也有所提高。本文将改进的新算法应用到蛋白质提纯方法选择中,设计了完整的算法流程,并开发了蛋白质提纯方法选择应用系统,该系统实际应用效果良好,所得方案基本符合专家经验。
其他文献
粒子图像测速技术(PIV)是流体力学的重要实验手段。但是目前为止一些对流场的流速的研究还无法完全实现实时测量,尤其是在对流场图像做互相关分析时所做的处理都是在CPU中进
随着工业过程自动化水平及系统集成水平日益提高,一方面,生产设备之间的关联性、变量之间的耦合性增强,使得过程中出现的异常可能会给后续生产带来巨大影响,一个安全、稳定、
电力电子技术是20世纪后半叶诞生与发展的一门新技术。主要以功率半导体、现代控制技术、电路技术、计算机技术等为支撑的一种技术平台。随着电力电子技术的迅猛发展,在传统
切换系统作为混合动力系统的一种,它集合了离散状态和连续状态,也就是由一系列子系统以及在这些子系统之间起协调切换作用的规则所组成的混合系统,本文中提到的切换规则就是指切
核环境下遥控操作机器人是由人控制其工作的机器装置。它可以获取核环境下人类不能到达的区域的环境信息,并代替人手来完成一些危险的工作,以避免危险环境对人体带来伤害。视觉
近些年来,许多研究机构都在加大信息过滤、信息分类等方面的研究力度。尤其在信息安全问题日益凸显的今天,我国的信息安全战略也在加快升级速度。网络信息的监控、分析技术不
核磁共振成像(Magnetic Resonance Imaging,MRI)技术是目前一种先进的医学成像方法,利用磁共振信号能够获得任何部位、任意方向的组织切片的医学图像。在核磁共振成像的过程
近年来,物联网被视为继计算机、互联网和移动通信之后的又一项信息产业的革命性技术而得到广泛重视。作为物联网的一种实现形式之一,无线传感器网络(Wireless Sensor Network
交流异步电机调速系统控制方案的研究一直是当下交流传动控制领域的热点问题。异步电机的调速大体上可以分为RFO (Rotor Flux Orientation, RFO)矢量控制和直接转矩控制DTC (Direct Torque Control, DTC),这两者分别是基于转子和定子磁场定向的角度来进行分析和设计。矢量控制的效果严重依赖于电机转子侧参数,尤其是转子电阻Rr随着电机运行绕组温度升高而变化
21世纪人类对海洋的开发和利用不断增加,作为复杂海洋环境下的工作载体,自主水下航行器的研究备受世人瞩目。其中,运动控制是自主水下航行器领域的关键技术之一。然而,自主水