【摘 要】
:
随着信息技术的快速发展,不同的应用领域中都产生了海量数据。从大量数据中获取有用的知识已成为人们的迫切要求,数据挖掘因此成为目前的重要研究领域。聚类分析是数据挖掘的
论文部分内容阅读
随着信息技术的快速发展,不同的应用领域中都产生了海量数据。从大量数据中获取有用的知识已成为人们的迫切要求,数据挖掘因此成为目前的重要研究领域。聚类分析是数据挖掘的重要研究方向之一。由于聚类分析属于无监督的学习模式,所以其在实际生活中应用是非常广泛的,例如,生物分析、web日志分析等。但是,随着数据维度的不断增加,高维数据的“维数灾难”问题越发明显。在处理高维数据的聚类问题时,聚类的结果往往会因为“维数灾难”而不尽于人意。这是由高维数据的两大特点所导致的:(1)在高维数据集中数据具有稀疏性;(2)高维数据中由于数据彼此之间的距离相似,使得传统的基于距离的聚类算法变得毫无意义,加大了聚类的难度。因此,如何对高维数据进行有效地聚类已成为近年来的重点研究内容之一。针对上述问题,子空间聚类方法应运而生。作为处理高维数据聚类的一种有效方法,子空间聚类首先通过某种特征选择策略将数据从高维空间中投影到低维子空间中,然后在低维子空间中进行数据聚类。然而,现有的子空间聚类方法还存在很多问题,例如,在高维数据的降维过程中,所采用的特征选择方法不能有效保留原始数据的分类能力,从而导致子空间中的聚类结果发生偏差;另外,现有的子空间聚类方法大多只能处理数值型高维数据,对于类别型高维数据不能有效处理。为了有效解决现有的子空间聚类方法所存在的问题,本文将粗糙集理论应用到子空间聚类中。首先,提出一种基于粒度决策熵的粗糙集属性约简算法——ARGDE算法,并利用ARGDE算法对高维数据进行降维;其次,提出一种基于加权重叠距离的K-modes聚类算法WODKM,并利用WODKM算法在低维子空间中进行聚类,从而可以有效处理类别型高维数据;第三,将前面所提出的ARGDE算法和WODKM算法组合在一起,提出一种面向类别型高维数据的子空间集成聚类算法SPECCH。我们在多个UCI数据集上进行了实验,实验结果表明本文所提出的子空间聚类算法,可以较好地解决类别型高维数据上的聚类问题。本文的研究工作主要包含以下三个方面:(1)提出一种基于粒度决策熵的属性约简算法。针对现有的基于信息熵的属性约简算法所存在的问题,本文提出了粒度决策熵这一新的信息熵模型,并基于粒度决策熵设计出一种新的属性约简算法——ARGDE算法。我们在多个UCI数据集上进行了实验,相对于传统的算法,本文所提出的算法可以取得较小的约简和较高的分类精度。(2)针对类别型数据,提出一种新的距离度量——加权重叠距离,并由此提出一种基于加权重叠距离的K-modes聚类算法WODKM。在WODKM算法中,我们利用粗糙集理论中的属性重要性和粗糙熵等概念来计算每个属性的重要性,并且在计算对象之间的加权重叠距离时,不同的属性将根据其重要性的大小被赋予不同的权重,从而可以有效地体现出不同属性之间的差异性。(3)提出一种面向类别型高维数据的子空间集成聚类算法——SPECCH算法。在SPECCH算法中,首先利用ARGDE算法来构造多个特征子空间;其次,利用WODKM算法在所构造的特征子空间上分别进行聚类,得到多个聚类结果;第三,针对多个聚类结果采用加权投票的方法进行聚类集成。我们在多个UCI数据集上进行了实验,相对于传统的算法,本文所提出的算法可以取得较好的实验结果。
其他文献
有效的课堂纪律管理是高效教学的前提,但是课堂上破坏性行为的存在已被证明是小学教师面临的主要问题之一。国外已有研究表明,小学教师情绪能力影响课堂纪律管理,但是国内还没有对二者关系进行实证研究。因此本研究将以我国的小学教师为研究对象,考察其情绪能力和课堂纪律管理的现状及其在不同性别、学历、教龄和婚育状况上的差异,并探究两者的关系。本研究综合了国内外很多学者对于小学教师情绪能力的理论分析,将其划分为四个
在当前信息时代的背景下,世界经济全球化、一体化趋势锐不可当,各国纷纷加入到全球科技竞备中来。2018年习总书记考察长江经济带,在关于切实推动长江经济带高质量发展报告中提出:“创新发展是长江经济带高质量发展的第一动力”。高新技术产业既能够着眼当下,起到支撑我国经济发展的重要作用,又能够放眼未来,肩负起整个国家可持续发展的重任。为了紧跟时代步伐,提升宜昌市科技创新能力,宜昌市科技管理部门发布了一系列科
NAC(NAM,ATAF1/2,CUC2)转录因子在植物的生长发育和胁迫耐受性方面发挥着重要作用,但在日本结缕草中的研究还未详细展开。本文旨在研究日本结缕草(Zoysia japonica)中的NAC转录因子ZjNAC3基因的基本功能及其启动子的活性,同时探究ZjNAC3基因过表达对植物耐盐性的影响。研究结果如下:1、从日本结缕草中克隆获得了ZjNAC3基因,编码区全长1167 bp,生物信息学分
随着云计算,5G时代的来临,越来越多的应用程序采用云存储的方式存储数据,而物联网的大力发展,Io T等平台的推广使得越来越多的数据存储在数据中心,数据已经成为智能社会发展的基石。这种发展势必对存储中心的容量、传输率、可靠性等性能提出了更高的要求。同时这些数据具有产生速率不均匀,写需求大,读需求少的特点,数据存储时负载的动态变化对存储架构有了新的需求。动态负载存储存在负载变化与应用场景有较大关联的特
在全球化和大时代背景下,国家对新时期外语学习者提出了新的学习目标。2017版新课标提出高中英语课程在进一步发展学生综合语言运用能力的基础上,应特别注重提高学生的英语思维表达能力。目前,笔者基于大量文献发现高中学生写作输出表达普遍存在不地道、不流畅、不得体等问题。本研究采用行动研究法,以认知策略为理论基础,以长沙市XX中学高一年级某班为研究对象,并运用了问卷、访谈、写作测试等研究工具收集数据并进行研
在东晋、十六国及南北朝前期各政权的相互对峙中,青齐地区是一个特殊的地区。东晋十六国时期,青齐地区基本由北方政权控制,淝水之战后,东晋北伐收复青齐地区,但由于统治阶级内部满足于偏安的局面,收复的失地最后被后燕控制。东晋末年,建于此地的南燕政权为刘裕所灭。其后,刘裕建宋代晋,统治青齐地区长达半世纪,后北魏大将慕容白曜趁刘宋内乱之际夺取青齐地区的统治权。青齐地区位于淮河以北,南北政权都曾在青齐地区实施过
目的帕金森病(Parkinson’s disease,PD)是一种老年人常见的神经退行性疾病,主要以SNCA基因编码的突触核蛋白α-synuclein(α-syn)聚集形成路易小体(Lewy bodies,LBs)和黑质
c-Myc是螺旋环螺旋-亮氨酸拉链(helix-loop-helix-leucine zipper,HLH-LZ)家族的转录因子,在细胞增殖等方面发挥着关键作用。本试验旨在构建绵羊c-Myc与EGFP融合基因的真核表达载体,并探讨c-Myc基因对细胞增殖相关基因表达的调控作用。本试验合成了绵羊c-Myc基因的编码区序列,并在后面添加柔性linker肽(G_4S)_3序列,构建了c-Myc-(G_4
本文旨在探讨Visible Body软件应用于中学生物学教学的可行性,列举了探究式、小组合作式以及自学辅导式三种教学模式与Visible Body软件的有效结合,并具体分析实践后的教学效果。基于文献综述了解可视化人体软件的技术发展和Visible Body软件实践教学的研究趋势,总结教师访谈中提出的建议并设计教学过程,根据教学后的学生测验成绩和问卷调查,综合分析学生对Visible Body软件辅
随着科技高速发展和知识经济的时代的到来,如何高效的进行知识资源的获取、分享、融合和利用逐渐成为各个国家关注的焦点,我国也顺应时代地提出了以创新为驱动、全行业“互联