基于肿瘤基因表达数据的密度峰值聚类算法研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:wpsl5168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物技术快速发展,逐渐成熟的基因芯片技术产生越来越多的基因表达数据,其中通过对肿瘤基因表达数据进行聚类相关分析判定癌症亚型类别成为目前国内外研究的热点。从肿瘤基因表达数据的分子层面进行研究,分析相关致病基因可以判别肿瘤细胞的不同亚型。由于基因表达的自身特点、且技术成本较为高昂,进而基因表达数据普遍存在维度高、样本少、结构复杂等问题,从而探寻一种适应于肿瘤基因表达数据的聚类算法成为研究重心。密度峰值聚类算法(Density Peak Clustering,DPC)算法整体思路简单、参数较少、聚类准确率较高受到国内外研究学者的重点关注,将其应用于肿瘤基因表达数据中判定癌症亚型有着较高的研究价值及意义。本文主要针对肿瘤基因表达数据的特点,对DPC算法进行相适应的改进作为论文整体研究方向,并把改进后的算法应用在肿瘤基因表达数据集上进行癌症患者不同亚型类别的判定。主要研究内容如下:(1)针对传统DPC算法关键性参数需要人为手动进行选取及非簇中心点标签分配策略未考虑数据点间相关性的问题进行研究,提出了一种结合KNN和图标签传播的密度峰值聚类算法(Density Peak Clustering Algorithm Combined with KNN and Label Propagation,DPC-NNLP),该算法主要结合KNN算法思想来计算各样本数据点的局部密度值,并通过KNN算法形成的最近邻点构造局部密度主干区域,最后运用基于密度的KNN图把已知主干区域中数据点的标签分配给剩余点以形成最终的簇,并把该算法应用在多种形状和密度差异性较大的数据中进行聚类仿真实验。(2)针对传统DPC算法应用在高维数据中聚类效果不佳、算法时间复杂度较高的问题进行研究,提出了一种基于粗糙集子空间的密度峰值聚类算法(Density Peak Clustering Based on Rough Set Subspace,DPC-RSS),该算法结合DPC算法的优势,整体采用迭代的过程,在子空间聚类模式的基础上,应用粗糙集理论对聚类思路进行改进。利用DPC算法选取聚类中心点时的合理性以及子空间聚类模式对于高维数据高效的处理能力,有效避免了传统DPC算法在高维数据中的应用问题,把改进后的算法在多个高维数据集上进行了聚类仿真实验。(3)把本文所提出的算法应用在肿瘤细胞亚型类别分析中,首先对肿瘤基因表达数据集预处理,把算法应用在肿瘤基因表达数据集上,通过分析基因间的差异表达实现肿瘤细胞不同亚型类别的判定。并进行多组仿真实验,证明本文所提出的算法能够较为精准的判定肿瘤细胞的亚型类别。
其他文献
学位
随着我国高速铁路大规模的发展,桥梁结构作为基础的设施在线路中的占比越来越重要。而桥梁轨道结构因桥墩变形、梁体错台、梁端转动、预应力及徐变效应而产生的附加变形,对车—桥耦合系统的动力影响也越来越突出。本文选取5跨32m的高速铁路PC简支箱梁以及CRH2动车组列车为研究对象,通过建立梁体—轨道板的有限元模型,探讨CRSTⅠ型轨道板中钢轨变形随梁体结构变形的变化规律,基于ANSYS与UM软件的交互建立完
学位
世界上的高速铁路快速发展,社会的进步决定其的发展方向为高速、重载,而无缝线路建设是其中最关键的铁路技术之一,桥上无缝线路则被普遍认为已经是当前我国高速铁路工程建设主要解决的技术难题,其中有关计算实体模型、计算实体理论及其方法论的研究,还需要继续经历长期的发展来逐步完善。在桥梁墩台设计中,荷载是非常重要的一部分,而列车制动力是荷载中的关键内容,也是使钢轨产生纵向附加力的主要原因之一。在国外进行桥梁无
学位
学位
随着我国交通建设的迅猛发展,地上空间已基本被利用消耗殆尽,因此出现了大量近接交叉及地下工程,如公路—铁路、铁路—铁路、公路—公路及地铁隧道之间难免会出现结构交叉和空间交叉的情况。而对于小净距立体交叉隧道结构,在地震荷载作用下会受到多种地震荷载效应的作用,导致其所产生的地震惯性力较大;同时由于围岩之间的相互影响较大,交叉隧道可能会成为全线最为薄弱的区段,若发生地震破坏,将会造成严重的后果。目前针对于
学位
学位
学位