不完整数据上的聚类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xyhnet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入二十一世纪以来,人与人之间、人类与物理世界之间的联系变得愈来愈紧密。在这种情况下,数据的产生无处不在。然而,在数据规模几乎爆炸式增长的同时,数据质量并没有得到相应的提升,也无法得到足够的保障。因为数据在最初获取以及交换和传播的过程中,可能会出现各式各样的状况使得我们最终所获得的数据质量存在问题。然而常用的聚类算法通常需要数据的质量较高时才能正常使用,然而当大数据的质量存在问题时,这类方法通常表现欠佳。因而通常先使用数据清洗技术对存在质量问题的数据先行进行清洗,而后再进行诸如聚类的数据挖掘操作。但是在大规模数据上进行数据清洗往往具有很昂贵的时间开销,而最终的清洗效果可能尚不如人愿;即我们花费了大量的时间在数据清洗上,最终数据上可能仍旧存在无法清除的质量问题,也就是说最终清洗结果并不能显著的提高数据挖掘结果的质量。所以,直接在弱可用数据上进行聚类操作的研究对该问题的解决提供了一个新的思路,即我们不清洗数据直接进行聚类操作,或者在没有清洗干净的数据上进行聚类操作。本文主要研究如何在不完整数据集合上进行聚类分析的操作。首先,本文分析了不完整数据的空间结构,由此理解了不完整数据对于聚类操作的影响。据此设计了基于模糊聚类的不完整聚类算法,基于模糊聚类的不完整数据聚类算法将数据当中的缺失视为聚类迭代过程当中的优化变量,并在迭代过程中不断进行更新求解,完成不完整数据的聚类。基于密度分析的不完整数据聚类算法,将聚类过程中的两个核心要求进行了刻画,要求聚类当中的簇中心必须是周围点密度大的点,并且与其它的点密度大的点之间的距离尽量远,在确定了簇中心以后再依据一定的策略将其它点划分入当前的簇当中去。基于信息理论的不完整数据聚类算法将聚类过程视为记录对簇的不确定度不断变化的过程,随属性的加入,一条记录对类别的不确定度不断减小,直至最后我们可以将其划分到不确定度最小的簇当中去;针对不完整数据,我们需要先估计出需要的信息理论基本参数和簇的信息参数,通过这两者的结合,完成对不完整数据的聚类操作。在每种算法的设计最后,本文都通过相关的实验对算法进行了实验分析。
其他文献
交通流参数检测是智能交通系统的重要研究内容之一。基于视频的交通流参数检测具有信息含量丰富、设置灵活、成本低等优点,目前已成为国内外的研究热点,有着广阔的应用前景。
大数据计算框架Spark运用内存空间极大提升了任务的执行效率,但由于内存空间的局限性,Spark任务常常因为内存瓶颈导致执行效率低下,甚至任务失败,这与框架本身的缺陷和RDD(Re
TTCN-3语言越来越多地被应用于协议一致性测试中,TTCN-3的图形化表示给用户提供了友好的图形化描述手段。标准的GFT标准只能够描述测试逻辑对应的图形化表示,自动生成的测试
目前云计算已经大量出现并逐渐成为一种主流的计算范式,市场上将云平台作为主要IT基础设施的公司正在逐渐增多,这些趋势使得云计算的核心价值从最初的降低成本逐渐向具有敏捷
伴随生物医学数据得到爆炸式增长,快速发展的生物信息学也在不断剖析这些数据背后隐藏的信息,相关研究已成为热点。识别致病基因是人类健康研究的根本挑战,针对识别致病基因
目前WAF(Web Application Firewall,网站应用防火墙)设备应用得越来越广泛,它能够较好地阻止Web应用层面的攻击,并满足我国信息系统安全等级保护第三级别的要求。不过对于三
随着互联网技术的发展,恶意软件的传播越来越广泛,使得系统安全受到威胁,其中有很大一部分原因是因为越来越多的程序变为不可靠的可疑程序。这些程序没有通过安全验证。当前
随着社会的发展,人们已经不满足于只给出一个总分的成就性测验,而是希望能从被试的实际作答反应中获得更多有关被试认知结构的信息,以便对被试做出更具体更客观的评价,并且给
随着医疗技术和生物科技的快速发展,生物领域的大数据急剧膨胀,数据的快速、有效检索成为了至关重要的问题。传统的搜索引擎在检索过程中,采用文本相似性作为相关度的计算指
在物联网的三层体系结构中,感知层是物联网的感觉器官。而射频识别技术和无线传感器网络技术是物联网感知层的重要支撑技术,并在整个物联网的发展过程中扮演着重要的角色。射