基于划分方法的大规模数据高效聚类算法的研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:jia343212539
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基于划分方法的聚类算法中,k-means算法因为简单易实现的特点而得到广泛的应用。然而它存在诸多的缺点特别是对于大规模数据不能进行有效的聚类分析。本文主要研究了如何在k-means算法中应用网格的思想,如何改进网格方法中存在的问题,以及如何改进k-modes聚类算法并如何将其应用到软件安全检测的问题。这些问题的研究在模式识别、数据分析、市场研究以及其它与聚类相关处理过程的分析中具有重要的意义。首先,本文提出了一种基于网格密度的改进聚类算法CABGD。在CABGD中,提出了网格中心密集度概念,通过计算网格中心密集度的值来识别网格内数据的分布,解决了传统网格算法中由于人为划分网格不当而导致聚类精度降低的问题。这种算法在聚类精度上优于传统基于网格的聚类算法。其次,提出了一种基于网格的改进的k-means聚类算法IKMG。将单个网格作为基本的处理单元,同时应用并进一步改进了中心密集度概念,并设计了一种新的数据结构—聚类树。通过聚类树来组织和调整聚类簇,树的生成合并过程就是聚类过程。最终生成k个聚类树即聚类结果。在聚类大规模数据时,IKMG较传统的k-means算法有更高的时间效率,能发现任意形状大小的簇,无需人为指定k值的优点。最后,设计了一种相似特征树的数据结构SFT,SFT作为一种软件故障检测的工具,主要用来提高软件安全检测的效率。为了构建SFT,提出了一种改进的k-modes聚类算法IKMD。在算法IKMD中,初始众数的选择进行于聚类的整个过程中。聚类结果以k棵树的形式给出。最后将包含这k棵树的森林转化为一个二叉树即SFT。SFT根据Apriori性质按照先左后右的原则对软件程序进行故障检测。分析结果显示该算法是可行有效的。
其他文献
“软件人”是具有拟人智能的、生存并活动于计算机网络世界中的一类软件人工生命,是一种“虚拟机器人”,具有拟人属性、拟人功能、拟人行为和拟人结构。研究“软件人”的目的主
Web服务是一种面向服务的分布式计算模型,它提供一种平台独立、自描述、分布式的软件组件,是实现业务流程的一种松散耦合、应用互操作的平台。   单一的Web服务难以满足目前
这个时代,人类信息正在以空前地速度产生和数字化。这些信息的载体多种多样,如,新闻博客,微博,网页,科学论文,书籍,图片,声音,视频,以及各种社交网络。信息载体的多样化也直接导致了信息
报刊在我国具有悠久的历史,产生于唐代时期,直到现在仍然是信息传播的重要途径。在各个时期都为人们提供了大量的,及时的新闻,帮助人们了解世界,洞悉重大事件的发展变化,给人们带来
随着计算机技术的不断发展,应用于专业领域的模拟和仿真软件得到了迅速的发展,为企业做出正确的决策提供了有力的数据支持,降低了企业投资的风险和成本,《钻井计算机模拟系统》(
在信息爆炸的今天,无论是商业企业、科研机构或者政府部门,都积累了海量的、以不同形式存储的数据资料。由于这些资料十分繁杂,要从中发现有价值的信息或知识,达到为决策服务的目
在信息技术飞速发展的今天,以优盘、移动硬盘、数码相机为代表的移动存储设备大量涌现在我们的生活中。凭借其容量大、体积小、使用灵活、携带方便等优点,在各级应用中迅速普及
分子影像是一门新兴的前沿综合交叉学科,融合了分子生物学、化学、数据处理、图像处理等技术,它应用影像学方法,对活体状态下的生物过程进行细胞和分子水平的定性和定量研究,可以
学位
作为微重力科学的研究手段,空间站被用于进行大量的空间科学实验,包括蛋白质晶体生长、燃烧、材料和流体力学实验,这些实验在一个很宽的频率范围内都需要静态的加速度环境。振动隔离系统的基本目标是隔离空间站上的各种振动,抑制实验过程中的加速度环境,以实现空间科学实验所需要的低加速度环境。由于我国微重力科学研究的发展,特别是未来空间站的建立,对振动隔离系统的需求也日益迫切。本文对微重力隔振系统进行了力学分析。
为了保证柔性软件的质量,改善软件柔性,本文以柔点为核心要素,建立了面向用户的软件柔点的测试模型。本文借鉴了黑盒测试用例的一些设计方法,包括等价类划分、边界值分析、错