基于分区的倒排索引压缩算法研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:dpf443398
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
倒排索引是目前应用最为广泛的全文索引技术,是现代搜索引擎的核心技术。现在互联网上文本数据呈现爆炸式增长,为这些文本数据构造的倒排索引也需要越来越多的存储空间,压缩倒排索引不仅可以节省磁盘空间,同时也可以减少查询时所需要的磁盘和内存访问次数。因此,倒排索引压缩的研究对于海量文本数据的全文检索有很重要的意义。压缩倒排索引主要是压缩倒排索引中的docID序列、frequency序列,这两类序列的压缩最终可以转化为对非负单调递增整数序列的压缩。基于分区的Elias-Fano(PEF)编码压缩算法提出分区二级数据结构,对整数序列进行分区块压缩,显示出良好的压缩性能,本文针对整数序列"分区"压缩的思想深入研究,主要工作如下:(1)证明了 Golomb-Rice编码的压缩性能优于Elias-Fano编码的压缩性能,并且对于给定n个元素、上界为u的非负单调递增整数序列,本文提出一种为该序列直接确定Golomb-Rice编码参数b的方法。(2)结合Golomb-Rice编码优秀的压缩性能和整数序列"分区"压缩的思想,提出了基于分区的Elias-Fano-Golomb-Rice(PEFGR)编码压缩算法和基于分区的Golomb-Rcie(PGR)编码压缩算法。PEFGR编码压缩算法将整数序列划分为若干区块,构造一种二级数据结构:第一级结构存储整数序列每个区块边界元素组成序列的Elias-Fano编码结果;第二级结构存储整数序列每个区块内部元素的Golomb-Rice编码结果。PGR编码压缩算法在PEFGR编码压缩算法的基础上,将其第一级结构存储的元素也改用压缩性能更好的Golomb-Rice编码,进一步提高算法的压缩性能。(3)实现了本文提出的PEFGR编码压缩算法和PGR编码压缩算法,同时实现了 Golomb-Rice编码压缩算法、Elias-Fano编码压缩算法、PEF编码压缩算法、Simple-16编码压缩算法、OptPFD编码压缩算法用于对比。实验数据集采用的是Clueweb12和wikipediaXML。实验结果验证了 Golomb-Rice编码的压缩性能优于Elias-Fano编码的压缩性能;实验结果表明出这些压缩算法中PGR编码压缩算法的压缩性能最优,PEFGR编码压缩算法次之。在docID方面,PGR编码压缩算法比PEF编码压缩算法平均每个整数至少节省0.3个bit,比Simple-16编码压缩算法、OptPFD编码压缩算法节省更多的bits。
其他文献
随着网络和多媒体技术的发展,视频分享网站中网络视频数量呈爆炸式增长,用户对视频检索需求越来越高,因此网络上图像视频检索成为重要的研究课题。图像视频检索当前有三种方
由于C2C(Consumer to Consumer)电子商务交易的匿名性、动态性,交易双方缺乏基本的信任基础,交易存在较大的风险。构造科学的信任计算模型,客观度量卖家的可信度,辅助买家(消费者)做
随着现代社会的快速发展,各行各业对安防报警系统的需求也是与日俱增,并对智能视频监控系统中的应用技术及其发展提出了更高的要求。运动目标检测跟踪与行为检测技术作为智能视
随着业务流程管理的发展,业务流程建模成为业务流程管理研究领域的一个重要方面。业务流程建模是指通过图形、公式、表格或文字来描述业务流程的特性,将实际的业务流程转化为
云计算是一种新兴的计算模型,也是目前国内外商业和科研机构研究的热点之一。虚拟化技术是云计算中的一个重要特点。在云计算环境下,虚拟技术将网络中的服务器、存储和网络等虚
融合了无线局域网和Ad hoc网络优势的无线Mesh网络,作为一种解决无线接入“最后一公里”问题的关键技术受到了越来越广泛的关注。由于无线Mesh网络中的带宽资源和信道资源是无
分子动力学模拟是一种微观领域的模拟方法,在物理、化学、生物及材料等领域应用广泛。由于分子动力学模拟的计算量非常庞大,计算非常耗时,并行计算是解决该问题的必经之路。然而
近年来,随着WEB3.0的飞速发展,社交媒体也迅速发展起来,各大社交平台竞相怒放,用户量迅猛增长。截至2016年11月,Facebook注册用户数超过14亿,Twitter月活跃用户数已达到3.1亿
近年来,由于基于视觉的手势识别技术能够使人以更自然的方法与机器进行交互,越来越受到人们的重视。基于计算机视觉的手势输入技术的特点是对用户的限制少,但是需要处理的数据量
车载自组网(VANET, Vehicular Ad-hoc networks)技术自2003年ITU-T的汽车通信标准化会议上由各国专家提出以来,受到广泛重视并得到迅猛发展。隐私性是车载自组网的基本安全需