Skyline扩展查询研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:liongliong559
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Skyline是指数据集中不被其他点支配的所有点的集合。支配是指在数据集中,一个数据对象的每一维值都不比另一数据对象相对应维值差,而且必须至少有一个维值比另一数据对象好。维度上的好和差没有统一的定义,可根据用户的选择和偏好、经验知识来决定。由于Skyline查询计算在数据仓库、个性化推荐、数据库可视化、城市导航系统等领域的良好应用前景,使其成为当前数据库界研究的热点之一,受到了学术界和工业界的广泛关注。作为对Skyline扩展查询进行研究的开始和基础,本文首先对Skyline查询目前的研究现状进行了综述。全面分析了在集中静态环境下利用空间索引或编码技术快速进行Skyline计算的各种算法及其变形;进而深入探讨和分析了为了满足人们各种不同查询需求而提出的多种Skyline查询方案,包括子空间上的Skyline查询、动态Skyline查询、K-支配Skyline查询和约束Skyline查询等;最后详细分析了在不同应用环境下例如Web信息系统、数据流环境、微观经济学等中的Skyline计算改进方案。   本文工作主要集中在Skyline查询问题中的三个扩展查询,分别是面向双方决策的Skyline推荐问题,Skyline距离问题以及负载均衡的分布式Skyline查询问题。以往相关的Skyline查询研究工作都集中在单方决策的研究上,即决策方在一个给定数据集上进行Skyline查询。然而在现实应用中,决策过程常常是多方参与的,例如企业招聘,学校招生,企业并购等等,双方都希望在满足一定约束的情况下选择最优的对象。本文用求职者和工作职位为实例,探讨和研究系统如何快速回答双方提出的Skyline扩展查询问题。我们用Skyline为决策双方的竞争性选择进行了建模,首先为用户可能提出的多种需求定义了一系列灵活的Skyline扩展查询方案,然后为这些扩展查询设计了基于共享计算思想的批处理高效算法,最后用一系列实验证明了这些算法的有效性。   Skyline在多目标决策问题中的应用已经被广泛认可,大多已有工作关注于如何高效计算给定数据集中的Skyline对象集合。然而通常情况下,Skyline集合是全体数据中的一个相对较小的集合。在本文中我们转换了视角,关注那些大量非Skyline点的需求,提出一个非常新颖的问题:一个数据对象距离Skyline有多远?我们提出了一种新颖的度量:Skyline距离,指在给定的代价函数下使一个数据对象成为Skyline的最小代价。Skyline距离可被视为是一个多维竞争性度量,可用于在推荐系统中评价不同的方案。然而计算Skyline距离并不容易,无法通过扩展已有的Skyline计算方法来获得解决方案。我们设计了三个有效计算Skyline距离的算法。首先基于对数据和问题的直观观察,设计了动态规划算法;其次基于若干的理论证明,提出一个排序-投影算法,算法递归地将高维空间分解为多个低维空间,降低了计算难度;然后基于空间划分思想设计和实现了一个能高效裁剪搜索空间的空间划分算法;最后通过理论和实验证明了以上算法的有效性。   多目标决策问题的应用场景往往是交互式的,用户需要对数据集进行不断的探查,因此要求系统具有较高的响应速度,但目前数据在往海量化、高维化的方向发展,单机算法常常不能达到实际应用的要求。随着并行计算环境越来越普遍,扩展Skyline查询到大规模并行计算环境中是关乎Skyline计算应用性的一个迫切问题。目前已有研究主要关注如何减少复杂网络环境中的网络通信代价,而没有考虑如何在多处理器快速互联的高性能集群中更好地使用高带宽特性来提高Skyline计算的性能。本文提出了高带宽分布式环境下渐进式负载均衡的Skyline计算问题,设计了一个高效并行Skyline查询算法,利用了Z-order地址的单调顺序性和聚集性来提高分布式系统中的Skyline查询求解速度,证明了算法的正确性和算法是收敛的,通过理论分析和大量的实验,证明了提出算法能充分利用网络条件来提高负载均衡率,并且对于不同分布的数据都能高效渐进地返回结果。
其他文献
统计机器翻译是以大规模双语平行语料为基础,充分利用计算机较强的计算能力,通过统计分析,构建翻译模型、语言模型、调序模型,进而利用此模型进行翻译的自动化技术。目前,统
现代远程教学系统是在网络技术、多媒体技术等技术的基础上发展起来的,打破了传统教育中学校的局限,使得在分居各地的互不相识的人可以同时进行学习。远程教学系统为学生提供了
学位
机会网络中的路由算法不再依赖于端到端的连接,主要依靠节点与节点之间的相互协作,通过“存储——携带——处理——转发”的工作模式实现数据传输,更符合实际的需求。机会网
随着Internet的快速发展,网络电话VoIP也得到了推广,由于其较传统电话资费便宜、可视频通话等优点,VoIP在长途电话、越洋电话等方面应用尤其广泛,但与传统电话相比,VoIP话音质量还
移动社交网络,是一种结合了网络与节点社会特性的时延容忍网络。现有的时延容忍网络路由协议假设源节点和目标节点之间至少存在一条完整通信路径,已经无法适用于该新型网络。
随着网络技术的飞速发展和网络应用范围的不断扩大,对网络的各类攻击与破坏与日俱增。在网络安全问题日益突出的今天,如何迅速有效地发现各种入侵行为,对于保证系统和网络资源的
相比于浅层网络,深度网络拥有更为有效的函数表征能力,可以为高度非线性且高度变化的函数学习到一种紧凑的表示。深度学习算法通过预训练和微调解决了深度网络的训练问题,使
在数据爆炸性增长的环境下,信息抽取成为一种从海量数据中获取有价值信息的重要手段。事件抽取是信息抽取的一个子任务,其目的是把含有事件信息的无结构化文本以结构化的形式
随着社会的发展和生活水平的提高,水资源的污染程度也成上升趋势,水污染已经成为了世界性的头号环境治理课题。我国的环保事业需要快速发展,工业废水、生活污水的处理成为当
学位
心脏病严重威胁着人类的生命,是全球范围内造成死亡的主要原因。传统的心脏病诊断方式以医生分析患者的心电图为主,医生主观判断的不确定性及心脏病病理的复杂性易造成误诊及