基于划分的不确定数据聚类算法研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:aishangliuning
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传感器网络、无线射频识别、金融服务等领域,由于网络延迟、传感器噪声以及出于用户数据隐私保护等原因,常常给原始数据带来不确定性。如何合理有效地利用而不是简单地丢弃是对不确定数据进行分析的重要问题。不确定数据的聚类便是不确定数据分析中的研究热点之一。与确定数据不同,不确定数据对象由一些具有相同概率分布的点共同组成,不再是一个确定的点。不确定数据聚类算法大都是在确定数据聚类算法的基础上通过使用不同的相似性度量公式拓展而来的。期望距离是使用最多的相似度度量公式。但是,对于具有相似概率分布的不确定数据来说,因为不确定数据对象具有相似分布,所以会出现数据对象重叠的情况,这时期望距离这样的几何距离,无法有效地进行区分。针对此类的不确定数据,本文使用KL-散度作为相似度度量公式,并基于模糊C均值算法,提出了一种不确定聚类算法UFCM-KL。另外,针对UFCM-KL算法对初始中心点敏感的缺陷,本文又借鉴密度聚类的思想,对UFCM-KL算法做了改进。本文算法的改进点为:(1)对模糊C均值算法做了拓展,使其可以对不确定数据进行聚类;(2)采用KL-散度作为相似度度量公式,代替期望距离,并对KL-散度的不对称性做了改进,并做了平滑处理;(3)针对UFCM-KL算法对初值敏感,容易陷入局部最优的缺点,提出了一种初值选择策略,选择密度较大且相对距离较远的不确定对象作为初值,可以更好地使目标函数得到最小值。本文对UK-means、UK-medoids、UK-medoids-KL、UFCM-KL以及改进后UFCM-KL共五种算法做了对比验证。首先,为了证明本文算法的有效性,在UCI数据集Iris、Wine、Glass上使用上述五种算法进行聚类,聚类结果的F1值证明了本文算法是有效性。其次,为了验证算法的运行效率,利用人工合成的不确定数据进行聚类,比较了五种算法的聚类时间,UFCM-KL算法的效率最高。最后,在人工合成数据上验证了参数对聚类结果的影响,比较了五种算法的准确率和召回率。实验结果表明UFCM-KL算法和改进的UFCM-KL算法是有效的,且相比UK-means算法、UK-medoids算法、UK-medoids-KL算法来说,无论是在运行效率还是在对参数的适用性上,本文算法都具有较好的聚类质量。
其他文献
<正>乔·约翰逊一度令鹰球迷看到希望.但匹夫之勇仍然难以拯救他们。这支全联盟最年轻的球队还需要磨炼。两个赛季前,乔·约翰逊在太阳队打出了职业生涯最辉煌的一个赛季.人们
一组具有MADS-box结构域的转录因子在控制花器官的诱导与发育中起着重要作,以中棉所36(CCRI)均一化全长cDNA文库为基础,结合EST测序分析,分离获得一个棉花的MADS-box基因全长cDNA
随着我国教育事业的发展,学生接受事物的能力越来越强,此时教师交给学生的内容也要与时俱进,适应学生的思想以及社会的步伐。多元化教学,目前已经成为高等教育的主流,属于最具潜力
<正>1.路还长着呢,我们还有时间做出我们的选择。第90届奥斯卡金像奖帷幕落下,携4座金球奖、获7项奥斯卡提名的大热门电影《三块广告牌》末了还是折戟,但这并不影响观众对它
德彪西钢琴作品作为过渡、承接钢琴浪漫主义与现代音乐风格之间的重要纽带,在欧洲音乐史上占据着举足轻重的地位。其作品独特的印象主义风格和精妙的演奏技巧要求,对提高学生的
UiO-66-NH2是以Zr4+为金属,以2-氨基对苯二甲酸为配体制备得到的金属有机骨架材料,它是目前报道中具有较高热稳定性和化学稳定性的材料之一。本文以Fe3O4为核,以UiO-66-NH2为
从环保及行业可持续发展角度综述了含氰废水处理的重要性,阐述碱性氯化法在含氰气化废水处理工程实践中的设备开发应用。
中职、高职、本科有机衔接协同创新发展已经成为现代职业教育体系发展的必然趋势。高技术技能型足球人才的培养规格和内涵要求正随着足球产业的蓬勃发展发生重大改变;足球人