面向癌症基因数据的关联规则挖掘技术研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:a504468075
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术地进步推动各行各业快速改革,特别是生物学方面,全基因测序的成功,使得对癌症基因表达数据的获取代价急剧下降,为系统的研究癌症基因组提供了广阔的平台。癌症基因表达数据的特性是维度高、样本量少、信噪比大,如何在这样的数据集中挖掘出有价值的信息,是研究的热点问题。目前,国内外研究学者们对癌症基因表达数据的研究取得了一些成果,但由于技术路线不够成熟,对基因表达数据研究不够透彻,这些成果不能在临床医学上开放使用,所以对癌症基因表达数据的研究仍然需要大规模的验证。在众多的数据挖掘方法中,关联规则的挖掘是最具实际效益的。Apriori关联规则挖掘算法是数据挖掘中经典算法之一,该算法的缺陷也非常明显,针对高维大数据,在生成频繁项集的时候,Apriori算法需要一遍遍反复扫描数据库,生成的候选项集不仅占用存储空间,而且有很多无关项。这样不仅降低了算法的准确性,且耗费时间。针对这一缺点,本文提出了一种新的基于PmR-NRS混合特征选择对原数据集进行降维处理,主要是通过PmR-NRS方法将数据集中特征与类别之间具有最大相关性而特征相互之间具有最小冗余性的特征提取出来,保留最优化的特征子集进行关联规则的挖掘。为了验证本文算法的有效性,将传统的Apriori算法和改进后的Apriori算法作用于四组癌症基因表达数据集进行实验,结果实验证明了PmR-NRS混合特征选择对关联规则的挖掘有很大的作用,降低了Apriori算法的计算复杂度,提高了算法的有效性。针对关联聚类算法的研究,主要介绍的是加权似然模糊k-均值(WPFCM)算法,该算法只适合于低维的数据集,而我们研究的癌症基因表达数据集维度超过了20000。所以提出了一种新的改进算法QR-WPFCM算法,该算法的主要思想就是先对高维数据分解降维,然后进行聚类分析,为了验证QR-WPFCM聚类算法的可行性,我们选择了两组癌症数据集:Golub公布的Leukaemia(急性白血病)数据集和GEO基因数据库的Colon carcinoma(结肠癌)数据集。通过实验也证明了选择恰当的聚类中心,QR-WPFCM聚类算法的准确度可以达到100%,而传统的WPFCM聚类算法的准确度只能达到93.1%。最后在对聚类后的癌症数据集进行关联规则的挖掘,实验结果表明了QR-WPFCM聚类关联规则算法对预测癌症基因标志物有很大的潜能性和应用性。
其他文献
目的 应用氢质子磁共振波谱(Proton Magnetic Resonance Spectroscopy,1H-MRS)技术,分析非痴呆型血管性认知障碍(Vascular Cognitive Impairment no Dementia,VCIND)患者两侧海马细胞水平的代谢变化,及其与蒙特利尔认知功能(Montreal Cognitive Assessment,MoCA)评分的相关性。材料和方法
研究目的:在文献综述的基础上,通过现场调查全面了解天津市滨海新区居民健康状况、社区卫生服务利用情况、社区卫生服务利用的满意度,以及分析影响居民对社区卫生服务利用满
情感类谈话节目《跨国情缘》讲述的是一个河南小伙陈宣宣在机缘巧合之下,结识了来自乌克兰的女孩阿廖娜,两个人来自不同国家,接受了不同文化的教育,虽然中间有诸多曲折,但最
Shape Memory Alloys(SMA)as a new kind of smart materials,may also produce deformation and recovery tension through inflicting the phase changes through the chan
惯性行人导航系统是基于MEMS惯性传感器设计的一种行人定位装置,具有成本低、体积小、易携带和抗干扰能力强等诸多优点,可广泛应用于卫星信号受到干扰的诸多场合,如高楼大厦
随着我国经济的快速发展,人们生活水平也在不断提高,对于生鲜食物的需求不断增加,蓄冷技术迅速兴起。蓄冷技术主要是利用工质状态变化过程中通过热量的储存和释放来调节环境温度的。利用相变材料的物态变化过程中潜热的储存和释放实现温度调节的相变蓄冷技术具有储能密度大、相变过程近似恒温、无需驱动力等优点,成为目前最受关注的蓄冷技术之一。相变材料是相变蓄冷技术的核心,相变温度约为-10℃的十二烷因其相变温度适宜、
在解决多目标优化问题时,存在这样一类问题,具有多个相互冲突的目标,且优化目标会随时间发生变化,我们称这类问题为动态多目标优化问题(dynamic multi-objective optimizatio
机器人越来越多地部署在非结构化和复杂的领域,包括家庭和各种商场超市场景。为了自主地执行复杂任务,可靠的环境感知是必不可少的。对于不同的任务可能所需的感知能力不同。
制造业占我国GDP约30%,是国民经济的主体。但大而不强、自动化水平偏低的问题客观存在。在产品的生产制造过程中,表面缺陷检测是不可或缺的关键环节。传统的表面缺陷检测任务
氰化氢(HCN)是一种典型的非常规大气污染物,具有易燃性和剧毒性。许多工业生产过程以及含氮物质的加工过程中均会产生氰化氢气体,废气中氰化氢的存在不仅会制约工业废气的资源化利用、影响其他污染物的净化,还会对生态环境造成严重的破坏。本文基于国内外氰化氢净化的研究现状以及实际工业应用上对于优化工艺段与节能减排的需求,开展了低温下催化水解与氧化氰化氢的研究。本文通过溶胶凝胶法制备了一系列以二氧化钛为载体的