大规模图集的频繁子图挖掘算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:justle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁子图挖掘是指从图集获得频繁出现的子图模式,它挖掘得到的结果可用于对图集的分类和聚类研究,有助于用户了解图集的特征。目前的频繁子图挖掘算法大都是基于内存的,实际上很多大规模图集无法被全部调入内存,针对这种情况,目前的解决方法是将大规模图集划分为多个可调入内存的子图集模块,分别对各个子图集模块进行频繁子图挖掘,但这种方法存在扩展频繁子图时产生冗余子图、重复扫描图集等问题。为了解决这些问题,本文重点研究了一种高效的频繁子图挖掘算法,并将它应用于大规模图集的挖掘。首先,针对gSpan算法所存在的扩展频繁子图时产生冗余的问题,提出一种改进的算法CSGM,结合ADI++存储结构,提高算法处理图集的规模,并且在扩展频繁边时,可以快速得到相关邻接边的信息,提高了扩展频繁边的效率,同时还提出了三种有效的删除非最小DFS编码的方法,保证算法在扩展频繁子图时每一次均可以生成图的最小DFS编码,避免对非最小DFS编码的支持度计算,减少了算法的计算量。其次,针对现有的大规模图集的频繁子图挖掘算法PartGraphMining存在的重复扫描图集问题,提出了一种改进的算法IPGM。通过使用本文提出的CSGM算法对分割后的各个子图集模块进行频繁子图挖掘,提高了对各个子图集模块进行频繁子图挖掘时的效率,同时在挖掘中使用Hash表存储所得到的同构图的Hash地址,可快速得到整体频繁子图模式,避免了对图集的重复扫描并且减少了子图同构判断的次数。最后,本文通过实验对CSGM算法和IPGM算法的正确性、执行效率以及处理大规模图集的能力进行了验证。
其他文献
二进制翻译技术通过软件手段将一种指令集体系结构(ISA)上的可执行程序翻译到另一种ISA上执行。该项技术可以应用于代码移植、动态优化、错误监测、系统安全等多个领域。  
近年来,由于计算机和互联网的高速发展,信息资源呈现出爆炸式增长,数量上越来越丰富,但同时也给知识获取增加了难度。如何能够对信息进行有效的组织和管理,使之转化为知识,成为知识
图像分割是图像分析、识别和理解的基础。图像分割主要是将图像分成各具特性的区域并可提取出感兴趣的目标的技术,其研究多年来一直受到了人们的高度重视,由于不同待分割图像的
随着虚拟化和云化等技术的发展,计算存储分离架构应运而生,计算存储分离具有很好的扩展性和可管理性。计算存储分离之后,资源按需扩容,使得总体成本降低。同时云化大规模并行处理
机群系统已经成为高性能计算机的主流,其中又以中小规模机群应用得最广泛。机群文件系统为机群应用提供数据存储、数据共享、数据访问等服务。高效、易管理、低成本、高可靠性
无线射频谚{别RFID(Radio Frequency Identification Technology)是一种非接触、低功耗和低成本的无线通信技术,可应用于物体识别和数据采集。与条形码相比,RFID具有非呵视传输
随着计算机技术、图像处理技术的迅速发展,外科诊断与治疗的手段正在发生着很大的变化。近年来出现的计算机辅助手术系统,仿真手术系统等就是信息科学迅速发展并应用于医学领域
正则表达式匹配是计算机研究领域的一个经典问题,是众多网络安全系统中的关键技术之一。随着互联网的的普及和发展,海量信息的处理和新的应用需求对正则表达式匹配技术提出了新
聚类与划分算法分别采用自底向上和自顶向下的方法对电路进行层次化操作和分割操作,有效提高了EDA工具处理大规模电路的效率。本文着重研究了可进行特殊结构识别与处理的层次
学位
面孔的感知和识别在人类的社会交往中扮演着及其重要的角色,人在感知面孔的时候,从中获取了大量重要的信息,这些信息提供给我们个体的身份特征和精神状态,从而确定彼此之间的相互
学位