面向数据流的优化聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:o9876521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,国内外学者对数据流上的聚类分析问题进行了大量的研究工作,但仍存在不少问题尚待研究和解决。大多数基于网格的聚类算法,对网格单元缺乏有效的存储结构;现有算法对簇边缘的数据点不能准确聚类,也不能有效处理噪声点;序列数据普遍存在于数据流中,现有算法不能很好度量序列间的相似性,以致聚类质量较低。这些问题的研究对现有数据流系统的聚类分析功能的优化以及在具体领域的应用具有重要意义。首先,设计了一种基于网格划分的索引树结构Pks-tree。该索引树结构仅存储非空网格单元,并保持网格单元之间的位置关系,以提高聚类时的存储和检索效率。在Pks-tree的基础上设计基于网格密度的数据流聚类算法,通过遍历Pks-tree,并标记不同的网格单元来获得聚类结果。其次,提出了一种基于网格密度和关联度的数据流聚类算法。使用基于关联度的技术处理簇边缘的网格单元;定义一种基于时间的密度阈值函数,以实时地删除噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,并基于网格密度和关联度动态地调整已生成的簇。最后,提出了一种基于聚类技术的软件漏洞检测方法。设计一种新的序列间相似性度量机制来指导聚类过程,通过对已有软件漏洞序列集进行聚类分析,挖掘潜在的漏洞模式,构造模式库;采用一种基于相似性度量的检测机制来分析疑似漏洞序列,以降低检测的误报率和漏报率。通过计算疑似漏洞序列与模式库中漏洞模式的相似度,对待测软件进行漏洞分析。本文通过实验对上述提出的算法和方法进行了有效性和可行性的验证,并与已有经典算法和方法进行了比较分析。
其他文献
随着通信技术的不断发展和社会需求的日益增长,传统的单一媒体的通信服务,如电话、传真,已难以满足人们的日常需求。基于宽带网络的视频会议系统把视频、音频、文字等多种媒体信
讲故事作为学校和家庭教育儿童的有效手段,一直是国内外各研究机构的研究热点。目前的很多儿童讲故事软件以各种形式为儿童提供了故事创作工具,但是它们大多不能让儿童相互协作
在信息化建设迅猛发展的今天,机房的规模不断扩大,并且地理位置趋向分散,为了保证各种硬件设备持续稳定地运行,机房管理员的工作也越来越繁重。在对机房的监控过程中,虽然网络和服
复杂背景下的目标实时分割与检测技术是计算机视觉领域的一个重要研究方向,在人机交互、智能监控和虚拟现实等领域具有广泛的应用前景。本文以视频中的目标实时分割与检测技术
学位
许多涉及海量空间数据共享、交换、集成和服务的WebGIS应用系统,如:空间数据集成系统,空间信息共享服务等应用系统,它们以空间信息共享的GML数据格式传输和处理。由于GML空间数据
仿真图像生成技术是计算机图形学研究的一个重要内容,在各个方面都有广泛的应用。在航空航天领域,地面的应用处理常常依赖空间探测器拍摄结果,由于实验成本的昂贵,对探测器拍摄结
随着对等网络(Peer—to—Peer,简称P2P)技术的快速发展,P2P网络已成为互联网上的一个重要应用。P2P网络将互联网上闲散节点通过一定方式组织起来,提供强大的计算与存储能力。P2P
问答系统是集自然语言处理技术和信息检索技术于一身的新一代智能搜索引擎。与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需要的答案。问答
基因可变剪切计算是生物信息学领域一种重要的科学计算应用。单个基因可变剪切计算批作业中包含大量串行子任务,需要大规模的计算处理能力。这些子任务可以在网格计算环境中并
网页是一种易逝的信息资源,在新网页不断涌现的同时旧网页也在逐步消失。如果没有专门的机构来对网页进行收集和保存,它们就会在不经意之间消失。而随着互联网成为一种不可忽视