基于K-means聚类的RCNA识别算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:hbzjl001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因拷贝数是指某一种基因或某一段DNA序列在某一生物基因组中的个数。基因拷贝数变异是指和参考基因组相比,DNA片段在1Kb至1Mb范围内的缺失或增加的一种结构变异现象。基因拷贝数突变(Copy Number Aberration,CNA)是普遍存在于基因组中的一种结构变异,包含基因中拷贝数的缺失、插入、倒位、重排和基因中多位点的复杂变异等。随着对于基因拷贝数突变CNA的研究,我们可以对基因组的结构、人体遗传差别和致病遗传因素等将会有一个全新的看法。RCNA(Recurrent CNA)是包含于多个样本相同染色体区域内的一段连续的CNA,它和许多疾病都存在着关联。对于RCNA的识别,可以为研究致病基因的分子机制提供重要的思路和解决方案。本文致力于从高通量生物信息数据中挖掘出与疾病相关的RCNA区域,并对所挖掘出的RCNA区域进行计算评价,为生物体中致病RCNA区域的研究提供基础和依据。通过对基因中RCNA区域进行分析,可以获知基因中的RCNA区域所具有的聚类特性,根据此特性,我们提出了基于k-means聚类的RCNA识别算法。在进行聚类分析时,将基因中的RCNA区域作为一类,正常数据区域作为另一类。由于原始数据中存在噪声,为了能够有效的识别出数据中的RCNA区域,首先我们使用维纳滤波算法去除数据中所包含的噪声,然后再对去除噪声后的数据进行后续分析。对于整个数据的分析,我们从第一列开始选择数据,然后对所选择的数据进行k-means聚类分析。紧接着将窗宽开始位置向前一列移动,再次选择指定窗宽的数据进行分析。依次将每次所选择的数据进行聚类,最终完成对整个数据区域的遍历。为了使实验结果更准确,针对每次所选择的数据区域需要进行多次k-means聚类分析,最后求得多次聚类结果中各个样本点到该类聚类中心点的最小距离。通过对聚类中心点的最小距离进行分析,可以有效的识别出数据中存在的RCNA区域。本文所有的实验都是在仿真数据集上进行的,通过实验验证算法的可行性。将实验结果与其他已有的两种RCNA识别算法进行比较和分析,表明本文算法在进行RCNA的识别过程中有着更好的性能。
其他文献
2G移动网络为了实现交换与控制的分离,引入移动智能网作为增值业务的开发与运行平台,而3G移动网络为了提供更为开放的业务开发模式,引入应用服务器作为主要的电信业务运行平
调度问题是工农业生产、国防、科研、交通运输以及各种服务行业中普遍遇到的问题。调度问题要研究的主要内容就是根据产品制造需求合理分配产品制造资源,进而达到合理利用产品
对连续语音语料库进行切分或标注是整个连续语音识别系统的基础和前提,而且也是一项非常重要的工作,因为它对语料库的充分利用有重要作用,对连续语音识别系统的性能有重要影
汉字识别系统是将图像数据中的文字信息提取出来的一种系统。根据图像数据的种类,汉字识别系统有着各种各样广泛的应用。比如银行单据识别,电子图书馆,邮政编码自动分类,手写
传统上,发现药物过程主要包括三个阶段:发现、临床前阶段和临床开发。整个过程费时昂贵,却往往效率低下。药物重定位正是在这种情况下提出来的,其目标是通过识别和使用已知的药物,来治疗目标疾病以外的其他疾病。以往的药物重定位方法主要是基于药物基因疾病的关系,而丢弃了许多重要的信息,为了解决这个问题,本文集成各种数据,从多角度推断药物作用,提出了两种新的方法,来解决药物重定位问题。第一种方法关注表型数据,提
关联挖掘作为数据挖掘的一个重要研究分支,其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则。由于形式简单、易于理解,且是从大型数据库中提取知
当前多媒体已经成为信息传递的主要方式,多媒体广泛地应用于各行各业,如广告、教育、医学、商业、娱乐等方面。同时随着计算机和网络技术的快速发展,信息的传递变得越来越方
随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度增长。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面
自“信息高速公路”提出以来,网络在全世界以惊人的速度发展着。Internet将全世界联系起来,LAN、WAN等局域网技术使局域网内资源、信息得以传播和共享。视频会议系统正是在这
当今Internet技术的飞速发展和网络主机数量的大量增加给网络带宽和服务器带来巨大的挑战。从网络技术的发展来看,网络带宽的增长远高于处理器速度和内存访问速度的增长,所以