【摘 要】
:
Skyline查询算法,从被提出以来,就得到了大量的关注。该算法能够很好地描绘数据的概况,展现数据的走向。Skyline查询算法在多规则决策、实时在线服务以及商业数据分析等等的实际场景中都用着良好的应用。并且在互联网技术日新月异的时代,Skyline查询算法依然拥有可观的发展潜力。然而,在处理维数多、数据量大的数据集的时候,Skyline查询算法存在着返回结果过多的问题。因此结合经典的Top-k算
论文部分内容阅读
Skyline查询算法,从被提出以来,就得到了大量的关注。该算法能够很好地描绘数据的概况,展现数据的走向。Skyline查询算法在多规则决策、实时在线服务以及商业数据分析等等的实际场景中都用着良好的应用。并且在互联网技术日新月异的时代,Skyline查询算法依然拥有可观的发展潜力。然而,在处理维数多、数据量大的数据集的时候,Skyline查询算法存在着返回结果过多的问题。因此结合经典的Top-k算法来帮助过滤Skyline查询的结果的Top-k Skyline查询算法被提出了。但是现有的Top-k Skyline查询算法在处理大数据集的时候,仍然存在效率低下的问题,主要表现在以下几个方面:(1)通过构建以及维护特殊的数据结构来减少查询时间。但是在处理大数据集时,存储相关数据结构的所需空间以及维护数据结构的所需时间,随着数据量爆炸式增加而变得难以接受。(2)时间复杂度较大。现有算法最优时间复杂度为O(nlogn),在处理大数据集的时候,算法的运行时间过长。(3)特殊的数据结构缺乏普适性。在处理数据类型简单的数据集时,构建相匹配的数据结构能做到良好的时间优化。但是面对数据类型复杂的数据集时,往往难以找到一种合适的数据结构,缺乏普适性。本文提出一种新的面向大数据集的Top-k Skyline查询算法—DFTS。该算法可以高效地在大数据集中进行Top-k Skyline查询。DFTS包括三个步骤:首先,利用“度值”评价函数对数据集进行排序,快速过滤掉大量的点,仅保留足够小的候选集;其次,对候选集进行Skyline查询计算,进一步排除掉Skyline集合外的点;最后,筛选出Top-k的数据点作为最终结果。通过这种方式,DFTS有效减小了算法运行时间开销。并且DFTS并不采用特殊的数据结构辅助,所以节省了空间开销同时更具有普适性。此外通过基于分布式计算框架Spark的实验,证明了DFTS能够很好适用于分布式处理环境。最后,开展了大量实验,实验结果表明DFTS算法相比于现有的算法具有更好的性能。
其他文献
教研活动是教师进行教学改革、提高教学水平、增进同事交流、提高学生学习效果的重要方式。教研活动开展的方式多样,既有学校组织的教研活动,也有教师自发进行开展的,当下占主导地位的是学校组织的教研活动。小学教师教研活动普遍面临着效率低下、形式主义及知行分离等问题,既占用了教师大量的课余时间,又难以达到预期效果。同样存在这一困境的W小学希望能够通过变革现有的教研活动模式,调动教师的积极性,发挥教师作用,保证
可溶液加工的有机小分子半导体材料具有分子结构明确、空气稳定、易提纯以及性能优异等优点,成为有机电子学研究的热点之一,特别是基于吡咯并吡咯二酮(DPP)的半导体材料引起了
聚类分析是模式识别与数据挖掘等诸多领域的重要技术之一。然而,由于簇的大小、形状、分布各异,目前已有的聚类算法,包括划分式、层次式、基于密度峰值和基于最小生成树等方法都无法令人满意。大量研究发现,相比均值中心和密度中心,使用代表点作为聚类中心的方法具有较好的性能,该方法受噪声、离群点和簇的形状的影响较小。另外,最小生成树的形状并不会随簇边界的变化而变化,因此,基于最小生成树的聚类算法能解决对簇的形状
本论文选题为“H职业学院的组织文化建设研究”,研究对象是H职业学院,简称“H学院”,研究内容是组织文化建设。因此,本文从H学院组织文化建设的实际情况出发,以北大光华的组
单张图像超分辨率(Single Image Super-Resolution,SISR)重建是当今人工智能、计算机视觉等学科的重要研究课题,自上世纪七十年代以来便受到了学术界和工业界的广泛关注。它的主要任务是:给定一张低分辨率的图片,复原出一张高分辨率的图片。高分辨率图像相对于低分辨率图像一般拥有更多的像素密度和纹理细节。该任务在当今社会有许多重要的应用场景:图像压缩领域,医学成像领域,遥感成像领
首先,本文提出一种新的基于相关滤波以及深度孪生网络的鲁棒长程视频跟踪算法。该算法能有效对长视频中存在的目标长时间遮挡、快速运动、消失视野等挑战进行处理。当目标经历长时间遮挡又重新出现在视频中时,本文所提算法通过离线训练好的深度孪生网络,使用模板相似度匹配来进行目标的重检测,从而得到高质量的目标候选区域。为了筛选得到正确的目标区域,本文提出了一种有效的多专家评估机制,来筛选得到置信度最高的目标区域。
在数据爆炸的今天,人们面对众多的商品或服务,很难从中抉择出自己喜欢的商品或者服务。为了克服信息过载的现象,也同时为了帮助用户在海量的信息中迅速找到对自己有价值的信息,从而节省用户浏览网站、挑选商品或服务所花费的时间,提升用户的体验和忠诚度,将潜在的购买信息转化为真实的效益。基于此,推荐系统应运而生,且发挥着越来越重要的作用。近些年来,卷积神经网络(CNN)模型作为深度学习算法的典型代表之一,己应用
人民幸福是中国共产党奋斗近百年的本质追求,是中国共产党人永远肩负的神圣使命,是坚持和发展中国特色社会主义的价值终旨。胡锦涛人民幸福思想是马克思主义幸福思想中国化的
长期以来,价格竞争一直是困扰我国国际贸易的难题,企业能否有效参与国际市场竞争,很大程度上取决于定价能力的强弱。企业定价能力的一个重要体现就是实行差异化定价,因此企业
近年来,随着城市化进程的加快,义务教育的实施,学生学习和生活压力与日递增,发生心理行为问题现象也日趋突出,因此学校已将学生心理健康教育当成教学工作中的重中之重。有效的表情分类可以协助心理学研究者们研究心理学等学科,通过对表情进行分类来分析儿童的心理活动和精神状态,从而减少心理行为问题的发生。其中,笑脸作为人类最常见的面部表情之一,反映了人的心理状态,传递着丰富的情感和意向信息。在学校里,通过鼓励学