近似查询的有效性及性能优化问题研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户：ismyaccount

【摘要】

：

给定一条查询，近似查询返回数据集中与该查询相似的所有实体。在关系数据中，每个实体被表示为一个单一的记录，因此，使用基于记录级别的相似度评价方法即可用来评价关系数据中实体

【作者】

：

卢卫

【机构】

：

中国人民大学

【出处】

：

中国人民大学

【发表日期】

：

2011年期

【关键词】

：

时态数据近似查询有效性性能优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

给定一条查询，近似查询返回数据集中与该查询相似的所有实体。在关系数据中，每个实体被表示为一个单一的记录，因此，使用基于记录级别的相似度评价方法即可用来评价关系数据中实体与查询之间的相似度。然而，在时态数据中，每个实体被表示为一组记录，其中，每个记录都附带其创建的时间戳。如何有效地定义时态数据中实体与查询之间的相似度是一个开放的问题，其主要原因为:当查询时态数据中的实体时，用户易于把该实体中不同时间段的信息组合在一起形成查询条件，从而造成了使用基于记录级别的相似度评价方法无法有效地评价时态数据中实体与查询的相似度。为此，把近似查询中记录与查询之间的相似度定义问题扩展到一个一般化的相似度定义问题:即实体与查询之间的相似度。为此，首先研究了时态数据中近似查询的有效性问题:即如何评价时态数据中实体与查询之间的相似度。　　(1)总结了当前用来描述关系数据中记录与查询之间相似度的各种评价模型，并分析它们的优缺点。借助于记录级别的相似度评价模型，可以定义关系数据中实体（等价于记录）与查询之间的相似度。而在时态数据中，每个实体通常以不同时间戳的多个记录形式存在。同时，用户的查询很可能把同一实体不同时间段的信息错误地组合在一起。为了解决这个问题，把每个实体看成是一组“虚拟记录”，其中，每个虚拟记录是由该实体不同时间段的信息组合而成的。在此工作中，提出了一种新颖的评价方法，来定义虚拟记录与查询之间的相似度值。进一步地，每个实体中所有虚拟记录的最大相似度值作为该实体与查询之间的相似度;　　其次，还研究了时态数据中近似查询的性能问题:即如何快速地找到时态数据中与查询相似的所有实体:　　(2)由于每个实体所包含虚拟记录个数与属性的个数成指数关系，与其包含的记录个数成多项式关系。因此，计算实体中每个虚拟记录与查询之间的相似度，其性能代价极其昂贵。为此，提出了一种基于限定-剪枝-改进(Bounding-Pruning-Refining)策略的DTA算法。其主要思想是:对于每个实体，不需要一开始就计算其全部虚拟记录与查询之间的相似度，而是每一次计算一小部分虚拟记录与查询之间的相似度来限定或改进该实体与查询之间的相似度范围。当剩下部分的虚拟记录与查询之间的相似度无法用来改进该实体与查询之间的相似度时，则当前该实体与查询之间相似度范围的下界即是该实体与查询之间的相似度值。通过在真实数据集和人造数据集的试验中，说明了该评价模型的有效性和DTA算法的性能。　　虽然DTA算法在回答时态数据中的近似查询具有较高的性能，但是在回答一些特殊数据集上的近似查询，例如，在回答关系数据上的近似查询（关系数据中的实体概念等价于记录概念）时，其性能不够理想。为此，对关系数据中的近似查询性能进行了优化:　　(3)给定一个字符串数据集和一个查询字符串，在使用编辑距离作为相似度函数的前提下，研究如何更快地回答阈值和KNN这两种近似查询。目前，相关的研究工作主要围绕在如何提高回答阈值近似查询的性能，但不能够很好地支持KNN近似查询。为此，提出了一个基于数据划分和B+-树索引的PBI算法。与现存的工作相比，PBI算法能够同时快速地回答阈值和KNN近似查询。此外，由于人们的方法是基于B+-树索引的，因此其可以很容易地集成到数据库管理系统当中;　　(4)给定一个记录集和一个查询记录，在使用权重向量模型的相似度评价方法（用来定义记录与查询之间相似度的一种评价模型）下，研究如何更快的回答KNN近似查询。对于每条记录，(i)通过使用某个指定的相似度函数来计算其与查询在各个属性上的相似度;(ii)每个属性都被分配一个权重值，该记录的相似度值定义为各个属性上的相似度值乘以相应权重的几何平均。然而不幸的是，在该框架下，需要逐一地计算每个记录与查询之间的相似度才能获得与查询相似的所有记录。当数据集包含的记录数量较多时，其计算代价相当昂贵。为了避免计算每个记录的相似度，提出了两种基于倒排索引的解决方法，包括ScanIndex和Top-Down，并在实验中展示了这两种方法的性能.

其他文献

关联规则挖掘在校园网资费标准制定中的应用

数据挖掘是一种典型的面向信息智能的应用技术，它不仅能对海量数据进行分析处理，并且能够找出数据之间的潜在联系，从而得到有价值的信息，帮助科学决策。本文就是对数据挖掘技术的

学位

校园网资费标准关联规则数据挖掘

汉英统计翻译中基于句法的预调序方法研究

互联网技术的迅速发展与普及，极大地方便了世界各地人们的交流和信息的获取。但语言使用的不同却给人与人之间的交流和信息的获取带来极大的障碍。目前，全世界的语言多达数千种

学位

机器翻译汉英统计翻译预调序方法句法结构

基于监控视频的高速公路交通状态判别技术研究与应用

　　针对目前我国高速公路监控视频利用率较低以及高速公路管理仍然采用人工查看监控视频的现状,本文对基于监控视频的高速公路交通状态判别技术进行了研究,并在此基础上设计

学位

监控视频交通状态判别道路结构提取运动累积霍夫变换高速公路

三维无线传感器网络的几何路由算法研究

伴随着无线传感器网络技术的兴起和发展，传感器的应用场景也在不断的延伸，从最初的军事侦查，消防检测等走向了近来的对海洋和空间的感知，即从二维平面走向了三维空间。在三维空间

学位

无线传感器网络几何路由三维空间

基于现代处理器的联机分析处理技术研究

自从1993年，数据库专家E.F.Codd提出联机分析处理(On-Line AnalyticalProcessing，OLAP)的概念以来，OLAP获得学术界和产业界的广泛关注，并取得了大量研究成果，创造了一个每年几十亿

学位

计算机体系结构联机分析技术现代处理器性能评价

闪存数据库系统缓冲区管理关键技术研究

电子技术的飞速发展催生了大批新型应用，如嵌入式系统、航空航天等，和传统的基于磁盘存储设备的应用相比，这些应用领域对数据存储提出了更高的要求。在这种背景下，闪存技术应运而

学位

闪存数据库系统缓冲区置换管理优化技术

整数漏洞静态检测方法研究

由于软件的灵活性、复杂性不断提高，软件安全漏洞问题日益加剧。一旦被利用进而实施系统攻击，可能带来不可估量的损失。软件漏洞检测是保障软件安全性的有效手段之一。因此，本文

学位

静态检测方法整数漏洞建模本质特征原型系统

面向异步环境的上下文感知中间件

随着无线通信技术和传感器技术的高速发展，一种新的计算模式——普适计算渐渐出现在人们视野中。它致力于将信息空间和物理空间进行融合，实现一种无处不在却处处不可见的信息处

学位

异步环境普适计算上下文感知分布谓词检测描述框架

基于频谱的测试用例选择与可疑度度量技术研究

调试是软件开发中比较复杂和困难的任务。基于频谱的缺陷定位方法通过插桩程序获得覆盖信息来推荐语句检查集，能帮助程序员更快地在规模庞大的软件中找出错误语句，从而降低了程

学位

频谱技术测试用例选择可疑度度量软件调试缺陷定位插桩工具

基于用户偏好的不确定数据阈值轮廓查询

近几十年来，随着现代经济的发展和计算机技术的进步，数据生成的速度越来越快，数据具有的主观色彩也越来越浓，数据的存储量也越来越大，如何从这些海量的信息中挖掘出用户最感兴趣的

学位

轮廓查询算法不确定数据用户偏好多维网格

近似查询的有效性及性能优化问题研究

其他学术论文