基于图核的蛋白质分类

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:danan1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质科学是生物科学的重要组成部分,蛋白质分类是蛋白质科学的热点研究领域。如今,模式识别与机器学习的广泛研究,快速的推动了蛋白质分类的发展。在模式识别领域,大部分数据是不能线性区分的。蛋白质的分类是一种复杂且非线性的分类问题,人们迫不及待的要寻求一种高效的算法,来对非线性模式进行分类。核方法的出现,解决了非线性模式线性不可分的问题,为此,核方法也越来越受到更多的关注和研究。在现实世界中,很多对象都是结构化的。一种有效的表示方法就是图。将核机器应用到图结构上,便得到图核。基于图结构的广泛适用性,图核已经被应用到很多领域并广受关注。易于表示和计算是评判图核的重要标准。很多种图核已经被提出并可大致分为三类:基于通路或路径的图核、基于子树模式的图核以及基于子图的图核。随着Weisfeiler-Lehman图匹配算法的提出,实验发现,将其与图核结合起来,把新得到的图核应用到支撑向量机中对蛋白质进行分类,可以取得良好的分类效果,并且这种图核能够适用于绝大部分的图结构。本文的工作内容主要在以下几个方面:(1)深入了解分类器的基本原理,深入分析核方法的工作原理,并讲解了核函数的性质、判别方法以及复杂核函数的构造方法,介绍了基于核函数的支撑向量机,并引出图核概念,介绍已有的几种图核;(2)了解Weisfeiler-Lehman图匹配算法过程,并将其结合到图核算法中,提出WL图核方法。由于WL图核能充分挖掘图的拓扑信息及图顶点之间的联系,用WL图核来度量两个图之间的匹配程度,能够取得较好的效果。蛋白质的功能与其空间结构密切相关,可以将蛋白质分子用图表示出来,模拟出蛋白质的空间结构。本文实验中,首先根据蛋白质一级结构及三级结构构造图,并用WL图核来分类,时间复杂度相差不大,分类准确率比其他方法要好。
其他文献
随着网络通讯技术的迅速发展和个人消费电子产品性能的不断提高,面向网络的视频应用正变得越来越普及.在互联网这种复杂异构网络环境下,网络视频应用面临着不同用户的传输带
随着计算机部件的价格下降和性能提升,机群系统凭借其低廉的成本和卓越的性能迅速成为高性能计算领域的热点研究方向.机群系统各商业部件间松散耦合的特性使得机群的管理需要
MPEG-2是一个应用广泛、十分成功的视频编码标准,现存大量视频数据是以其进行压缩编码.最新国际视频编码标准H.264/AVC采用先进的编码技术,具有优异的编码性能和取代MPEG-2的
随着信息技术的不断发展,现代社会对信息的需求量越来越大,大屏幕显示设备由于其固有的信息容量大且便于信息共享的特点,广泛应用于家用电视、商业展示、视频娱乐、工程控制
随着互联网的飞速发展,以互联网、信息技术为基础的在线学习变得越来越普遍。在线学习可以克服地域差异,并且可以让用户根据自身情况,自主灵活的安排学习时间,极大方便了用户
信息检索(Information Retrieval)是互联网和企业应用的重要研究课题之一。信息检索是处理海量文本的重要手段,其主要解决从大量文档集合中找到与给定的查询(Query)请求相关的
存储管理的复杂性已经成为阻碍SAN(Storage Area Network)在企业中获得广泛应用的一个重要原因.为此,存储网络工业协会(Storage Network IndustrvAssociation,SNIA)制定了Sto
近年来,随着数据库技术的完善和应用需求的日益复杂,应用系统对数据访问的功能和性能要求也越来越高。同时,人们越来越希望能够实现对异构数据库的透明访问和共享位于不同数据库
学位
学位
我国自主研发的嵌入式实时操作系统Hopen,随着其应用领域的不断扩展,系统内核面临着从软实时向实时性要求更高的硬实时的转变。Hopen现有的调度算法是一种简单的基于固定优先级
学位