近似查询的有效性及性能优化问题研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:ismyaccount
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给定一条查询,近似查询返回数据集中与该查询相似的所有实体。在关系数据中,每个实体被表示为一个单一的记录,因此,使用基于记录级别的相似度评价方法即可用来评价关系数据中实体与查询之间的相似度。然而,在时态数据中,每个实体被表示为一组记录,其中,每个记录都附带其创建的时间戳。如何有效地定义时态数据中实体与查询之间的相似度是一个开放的问题,其主要原因为:当查询时态数据中的实体时,用户易于把该实体中不同时间段的信息组合在一起形成查询条件,从而造成了使用基于记录级别的相似度评价方法无法有效地评价时态数据中实体与查询的相似度。为此,把近似查询中记录与查询之间的相似度定义问题扩展到一个一般化的相似度定义问题:即实体与查询之间的相似度。为此,首先研究了时态数据中近似查询的有效性问题:即如何评价时态数据中实体与查询之间的相似度。  (1)总结了当前用来描述关系数据中记录与查询之间相似度的各种评价模型,并分析它们的优缺点。借助于记录级别的相似度评价模型,可以定义关系数据中实体(等价于记录)与查询之间的相似度。而在时态数据中,每个实体通常以不同时间戳的多个记录形式存在。同时,用户的查询很可能把同一实体不同时间段的信息错误地组合在一起。为了解决这个问题,把每个实体看成是一组“虚拟记录”,其中,每个虚拟记录是由该实体不同时间段的信息组合而成的。在此工作中,提出了一种新颖的评价方法,来定义虚拟记录与查询之间的相似度值。进一步地,每个实体中所有虚拟记录的最大相似度值作为该实体与查询之间的相似度;  其次,还研究了时态数据中近似查询的性能问题:即如何快速地找到时态数据中与查询相似的所有实体:  (2)由于每个实体所包含虚拟记录个数与属性的个数成指数关系,与其包含的记录个数成多项式关系。因此,计算实体中每个虚拟记录与查询之间的相似度,其性能代价极其昂贵。为此,提出了一种基于限定-剪枝-改进(Bounding-Pruning-Refining)策略的DTA算法。其主要思想是:对于每个实体,不需要一开始就计算其全部虚拟记录与查询之间的相似度,而是每一次计算一小部分虚拟记录与查询之间的相似度来限定或改进该实体与查询之间的相似度范围。当剩下部分的虚拟记录与查询之间的相似度无法用来改进该实体与查询之间的相似度时,则当前该实体与查询之间相似度范围的下界即是该实体与查询之间的相似度值。通过在真实数据集和人造数据集的试验中,说明了该评价模型的有效性和DTA算法的性能。  虽然DTA算法在回答时态数据中的近似查询具有较高的性能,但是在回答一些特殊数据集上的近似查询,例如,在回答关系数据上的近似查询(关系数据中的实体概念等价于记录概念)时,其性能不够理想。为此,对关系数据中的近似查询性能进行了优化:  (3)给定一个字符串数据集和一个查询字符串,在使用编辑距离作为相似度函数的前提下,研究如何更快地回答阈值和KNN这两种近似查询。目前,相关的研究工作主要围绕在如何提高回答阈值近似查询的性能,但不能够很好地支持KNN近似查询。为此,提出了一个基于数据划分和B+-树索引的PBI算法。与现存的工作相比,PBI算法能够同时快速地回答阈值和KNN近似查询。此外,由于人们的方法是基于B+-树索引的,因此其可以很容易地集成到数据库管理系统当中;  (4)给定一个记录集和一个查询记录,在使用权重向量模型的相似度评价方法(用来定义记录与查询之间相似度的一种评价模型)下,研究如何更快的回答KNN近似查询。对于每条记录,(i)通过使用某个指定的相似度函数来计算其与查询在各个属性上的相似度;(ii)每个属性都被分配一个权重值,该记录的相似度值定义为各个属性上的相似度值乘以相应权重的几何平均。然而不幸的是,在该框架下,需要逐一地计算每个记录与查询之间的相似度才能获得与查询相似的所有记录。当数据集包含的记录数量较多时,其计算代价相当昂贵。为了避免计算每个记录的相似度,提出了两种基于倒排索引的解决方法,包括ScanIndex和Top-Down,并在实验中展示了这两种方法的性能.
其他文献
数据挖掘是一种典型的面向信息智能的应用技术,它不仅能对海量数据进行分析处理,并且能够找出数据之间的潜在联系,从而得到有价值的信息,帮助科学决策。本文就是对数据挖掘技术的
互联网技术的迅速发展与普及,极大地方便了世界各地人们的交流和信息的获取。但语言使用的不同却给人与人之间的交流和信息的获取带来极大的障碍。目前,全世界的语言多达数千种
  针对目前我国高速公路监控视频利用率较低以及高速公路管理仍然采用人工查看监控视频的现状,本文对基于监控视频的高速公路交通状态判别技术进行了研究,并在此基础上设计
伴随着无线传感器网络技术的兴起和发展,传感器的应用场景也在不断的延伸,从最初的军事侦查,消防检测等走向了近来的对海洋和空间的感知,即从二维平面走向了三维空间。在三维空间
自从1993年,数据库专家E.F.Codd提出联机分析处理(On-Line AnalyticalProcessing,OLAP)的概念以来,OLAP获得学术界和产业界的广泛关注,并取得了大量研究成果,创造了一个每年几十亿
电子技术的飞速发展催生了大批新型应用,如嵌入式系统、航空航天等,和传统的基于磁盘存储设备的应用相比,这些应用领域对数据存储提出了更高的要求。在这种背景下,闪存技术应运而
由于软件的灵活性、复杂性不断提高,软件安全漏洞问题日益加剧。一旦被利用进而实施系统攻击,可能带来不可估量的损失。软件漏洞检测是保障软件安全性的有效手段之一。因此,本文
随着无线通信技术和传感器技术的高速发展,一种新的计算模式——普适计算渐渐出现在人们视野中。它致力于将信息空间和物理空间进行融合,实现一种无处不在却处处不可见的信息处
调试是软件开发中比较复杂和困难的任务。基于频谱的缺陷定位方法通过插桩程序获得覆盖信息来推荐语句检查集,能帮助程序员更快地在规模庞大的软件中找出错误语句,从而降低了程
近几十年来,随着现代经济的发展和计算机技术的进步,数据生成的速度越来越快,数据具有的主观色彩也越来越浓,数据的存储量也越来越大,如何从这些海量的信息中挖掘出用户最感兴趣的