论文部分内容阅读
基因拷贝数是指某一种基因或某一段DNA序列在某一生物基因组中的个数。基因拷贝数变异是指和参考基因组相比,DNA片段在1Kb至1Mb范围内的缺失或增加的一种结构变异现象。基因拷贝数突变(Copy Number Aberration,CNA)是普遍存在于基因组中的一种结构变异,包含基因中拷贝数的缺失、插入、倒位、重排和基因中多位点的复杂变异等。随着对于基因拷贝数突变CNA的研究,我们可以对基因组的结构、人体遗传差别和致病遗传因素等将会有一个全新的看法。RCNA(Recurrent CNA)是包含于多个样本相同染色体区域内的一段连续的CNA,它和许多疾病都存在着关联。对于RCNA的识别,可以为研究致病基因的分子机制提供重要的思路和解决方案。本文致力于从高通量生物信息数据中挖掘出与疾病相关的RCNA区域,并对所挖掘出的RCNA区域进行计算评价,为生物体中致病RCNA区域的研究提供基础和依据。通过对基因中RCNA区域进行分析,可以获知基因中的RCNA区域所具有的聚类特性,根据此特性,我们提出了基于k-means聚类的RCNA识别算法。在进行聚类分析时,将基因中的RCNA区域作为一类,正常数据区域作为另一类。由于原始数据中存在噪声,为了能够有效的识别出数据中的RCNA区域,首先我们使用维纳滤波算法去除数据中所包含的噪声,然后再对去除噪声后的数据进行后续分析。对于整个数据的分析,我们从第一列开始选择数据,然后对所选择的数据进行k-means聚类分析。紧接着将窗宽开始位置向前一列移动,再次选择指定窗宽的数据进行分析。依次将每次所选择的数据进行聚类,最终完成对整个数据区域的遍历。为了使实验结果更准确,针对每次所选择的数据区域需要进行多次k-means聚类分析,最后求得多次聚类结果中各个样本点到该类聚类中心点的最小距离。通过对聚类中心点的最小距离进行分析,可以有效的识别出数据中存在的RCNA区域。本文所有的实验都是在仿真数据集上进行的,通过实验验证算法的可行性。将实验结果与其他已有的两种RCNA识别算法进行比较和分析,表明本文算法在进行RCNA的识别过程中有着更好的性能。