基于频繁子图的图查询技术研究

来源 :东南大学 | 被引量 : 2次 | 上传用户:kkaJov2Qc88R
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学与技术的发展,图数据结构在各个领域内得到广泛应用。图数据管理和查询已经成为一种研究热点。其中,图查询的基本方式分为子图匹配查询和图相似性查询。子图匹配查询返回图数据库中包含查询图的数据图,图形似性查询返回在一定的距离范围内与查询图相似的数据图。在这两种查询中,分别需要图同构验证或相似度的计算,这两种计算都已被证明是NP困难的,因此提升查询的性能也只能是最大化过滤掉非结果集。目前,对于这两种查询的优化,主要是基于过滤验证机制,即在查询时通过查询图的特征过滤掉不符的数据图,得到规模较小的候选集,然后对候选集进行同构验证或者相似度的计算。其中,一般选用图集中的频繁子图作为特征进行过滤,因为其保留了全局的结构信息,过滤性更强。在子图匹配查询问题中,现有的方式一般是通过图集中的特征建立索引,在查询时对查询图进行边扩展的方式得到相应的候选集。此方式在进行查询时的时间复杂度较高,并且没有充分利用查询图包含的特征进行索引的过滤,为此,本文提出了一种利用节点邻接特征进行过滤的索引结构Vindex。针对特定的领域,考虑图集特征之间的位置关系,结合用户的查询记录,提取其中较为有价值的特征位置关系,建立了基于嵌入特征关系的索引结构,用于减小候选集的大小。并提出利用特征之间的包含关系以及特征与数据图之间的关系,在一定程度上对索引项和候选集进行缩减。在图相似性查询问题中,现有的方法大多致力于减小编辑距离的计算时间,而对于缩小候选集规模没有提出合适的索引结构和查询过滤方法。本文结合编辑距离的概念和查询图的结构特征,对图集之中的数据图进行过滤,将相差度较大的图剔除。然后利用子图向量异或乘的方式对图进行聚集,将于查询图较为相似的图聚集在候选集中的前一部分,然后利用分支映射距离结合动态调整的方式得到一个较为精确的候选集。在验证阶段,利用图之间的编辑距离关系,建立了基于编辑距离的索引GDindex,在验证时首先与在索引之中的图进行计算,然后利用查询图和索引图的编辑距离关系,对候选集中的其他数据图进行处理,通过此种方式的处理可以减小最终的编辑距离计算的次数。最后,本文设计了验证实验,在真实Pubchem数据集上进行实验,分别从索引的建立时间、候选集大小和查询运行时间三个方面与现有方法比较。实验结果表明,与现有的方法进行相比,本文提出的方法有效可行,可以提升查询性能。
其他文献
软件维护是软件演化过程中必不可少的阶段,软件演化是指在软件系统的生命周期内软件维护和更新的动态行为,包括新功能的开发与软件整体的测试,其中最基本的元素便是软件修改
近年来,互联网上产生了大量的RDF数据,并且形成了许多以RDF数据为知识单元的大规模开放知识库或者垂直领域知识库。为了发挥RDF数据的实用价值,基于知识库的查询回答技术逐渐
软件定义网络(SDN)是近年来提出的新型网络架构,相比于传统网络,SDN具有更智能、更灵活、更具管理性的优势。因为SDN的各项优势,最近被逐渐部署在校园网、企业网、数据中心甚
随着计算机技术和通信技术地不断发展,各行各业中积累的数据量正在日益增长,数据挖掘作为一种能从大规模数据中发现隐含知识的技术,有着广泛的应用前景。聚类分析作为数据挖
近年来,随着科技的发展和时代的进步,国内外涌现了大量的数据中心,并面向用户提供基础架构、服务、平台等三种形式的服务。如今,随着数据中心服务的兴起,大量的商业企业、研
合成精馏流程最优结构的问题包含三个主要内容:(1)确定精馏流程结构的搜索空间;(2)生成或表示搜索空间内的精馏流程结构;(3)对精馏流程结构进行优化评价并获得最优的精馏流程结构。但是,目前已有的精馏流程结构搜索空间生成方法存在搜索空间不完整、包含许多不具有优势的精馏流程结构或者一些具有潜在优势的精馏流程结构被遗漏等问题。此外,为简化问题复杂性实现有效求解,现有方法大都是基于简捷模型对精馏流程进行模
当今世界,移动互联网对人们生活的影响日益加强,使用各种移动终端访问互联网已经成为一种趋势,同时也带来了海量的移动互联网流量。爆炸式增长的数据给数据采集终端带来巨大
随着二孩政策的开放,幼儿园数量的剧增,学前教育事业蓬勃发展,社会对学前教育的关注也随之升高。凉山州区位劣势明显经济落后,贫困地区居多,教育发展滞后。党中央强调,教育是脱贫致富的根本之策,为此也大力支持凉山地区发展教育事业,特别强调发展学前教育的重要性。认为学前教育的关键是促进儿童健康发展,儿童的健康发展关乎家庭和社会的希望。当前凉山幼儿教师师资主要来源于凉山地区高职院校学前教育专业培养输送的毕业生
目的:WY-101系列化合物是本课题组自行设计的一类结构新颖,作用长效的胰高血糖素样肽-1受体激动剂(Glucagon-like peptide-1 receptor agonists,GLP-1RAs)。本研究利用胰高血糖素样肽-1受体(Glucagon-like peptide-1receptor,GLP-1R)和胰高血糖素受体(Glucagon receptor,GCGR)稳定表达的细胞模型
随着现如今社会网络技术的快速发展,大量的种类繁多的社交App渗透进人们生活的同时也带来了安全隐患,隐私保护成为现如今社会网络研究的一大热点。很多专家投身于数据隐私保