海量多版本文档的加权持久性top-k检索

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:opentv2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出并研究了针对海量多版本文档的加权持久性top-k检索问题.加权持久性top-k检索能够返回在一个限定时间区间内与查询关键词组持续相关的k个结果,并且考虑不同时间区间有不同的权重.针对这一问题,把现有时空查询和针对多版本文档查询的方法进行扩展,使其支持加权持久性top-k检索问题,并分析总结了该方法的缺点,进而又提出了一种新的基于时间区间窗口的算法.基于时间区间窗口的算法能够支持多种经典top-k算法并有效地解决加权持久性top-k检索问题.最后使用Wikipedia多版本数据进行了一系列性能试验,对比
其他文献
在移动计算环境下,无线数据广播是一种可拓展性强、节能、适合用户数量大的信息发布技术.提出了一个在无线数据广播环境下支持空间关键字检索的框架,并提出了一种基于网格索引与倒排表结合的空中索引:IRGI(information retrieval grid index).IRGI的优点是:1)相对文档的大小,索引本身很小,因此可以在一个周期内分布多次索引,以降低访问延迟,增强用户体验效果;2)通过网格索
应用需求的发展衍生各种查询类型,Top—k查询是交互环境下一种重要查询类型.由于数据的不确定性,传统数据上的Top—k查询技术和方法不能直接应用于不确定数据查询.在已有不确定数
Internet资源的动态性使得资源分配问题已成为阻碍Internet资源获得充分利用的一大难题.为方便用户进行Internet应用开发,提出了一个资源动态分配的分布计算模型以及相关的分布
汽车轮毂生产线是典型的制造生产线,大到生产线的总体布局,小到每个硬件设计以及软件设计,需要设计与技术人员不断的探索,提高国内自动生产线的技术水平,满足零件的加工与制
目前,内部控制问题得到了来自政府、企业、市场的高度关注,在这样的背景下,行政事业单位的内部控制体系建设还相对落后,有很大一部分行政事业单位还未能建立一套适合自身发展并且
随着XML数据流的广泛应用,从挖掘XML数据流中发现知识具有重要的理论与应用价值.相比其他频繁模式挖掘,大型XML文档与数据流的频繁子树挖掘面I临困难:XML数据流不可能整体在内存