【摘 要】
:
随着网络技术和信息技术迅猛发展,社交网络、电子商务、资讯信息流、网络游戏以及多媒体视听内容空前繁荣,其中以文本为载体的信息呈现出爆炸式的增长,人们逐步被淹没在数据
论文部分内容阅读
随着网络技术和信息技术迅猛发展,社交网络、电子商务、资讯信息流、网络游戏以及多媒体视听内容空前繁荣,其中以文本为载体的信息呈现出爆炸式的增长,人们逐步被淹没在数据汪洋里。如何在数据汪洋中快速的检索到所需的有用是亟待解决的难题,因此信息检索已成为当下最热研究领域之一。全文索引是检索引擎、信息过滤等信息检索领域中的关键技术,它是实现快速信息检索的关键数据结构,然而存储索引本身所需的磁盘空间开销为原始语料库的数倍,这不但会造成巨大的磁盘空间浪费,而且也是影响检索性能优劣的重要原因之一。因此,研究全文索引压缩算法具有重要的意义,因为压缩全文索引不仅可以降低索引的磁盘空间开销,同时也可以在检索时减少磁盘I/O开销以提高检索性能。本课题对全文索引中目前应用最广泛的倒排索引的压缩算法进行了深入研究,主要工作如下:从理论上分析了目前典型的倒排索引压缩算法磁盘空间占用情况;基于文本聚类思想提出了一种文档标识符分配算法;提出了自适应分段压缩ASCS算法的四种改进方案,即针对ASCS算法中的分段方式并非最优分段问题,提出了以人工蜂群算法优化分段方式,改进了蜜源的适应度计算公式,使用压缩性能更好的DGap序列进行压缩,对分段参数使用Golomb Rice编码压缩;由于在引入人工蜂群优化算法对ASCS算法优化时存在一个相对耗时的迭代寻优过程,在大数据背景下,使用Hadoop分布式云框架对算法进行并行化。本文对改进后的算法使用Java语言进行了实现,通过9个不同的整数序列验证了算法改进的有效性;通过引入Hadoop分布式云框架对算法实施并行化,在两个标准TREC语料库GOV2和ClueWeb09下验证了并行化的有效性。
其他文献
目前,企业所面临的市场环境变化莫测,增加了企业在经营活动中的不稳定性,企业必须根据市场内外的复杂环境制定科学的决策来抵御、弱化经营中的风险。数据挖掘技术能够从企业
近年以来,移动互联网产业和物联网产业得到的长足的发展和爆炸式的增长。在诸如通信,物流运输,金融,工业物联网和互联网领域中,种类繁多终端设备在时刻产生着大量的结构化数
超级电容器,也称之为双电层电容器或电化学电容器,是一种可快速充/放电的能源存储设备。和传统电容器、电池相比,超级电容器分别具有更高的能量密度和功率密度。现如今的超级
航空航天科技的发展对风洞流场控制精度的要求越来越高,目前使用的控制方法无法达到试验的精度要求。模型预测控制利用预测模型基于未来时刻的控制偏差在线滚动优化求解控制
氧化物热电材料具有耐高温、抗氧化、合成工艺简单、适合大规模生产的特点,在中高温发电领域有很好的应用前景。Bi2Ca2Co2Oy是层状钴酸盐热电材料中的一种,由绝缘的盐岩型Bi2
随着社会经济和工业的发展,生产生活中涉及超大面积混凝土地面结构的实际工程越来越多。在施工及使用过程中结构的裂缝问题是具有相当普遍性的技术难题,因开裂问题导致的纠纷也频繁发生。考虑到结构的功能要求、用户接受度、抗渗漏等因素,生产施工中应采取综合措施来控制混凝土的裂缝。本文从混凝土裂缝产生的机理出发,探究超大面积混凝土地面结构的开裂原因及其影响因素。具体以陕西省某超大面积混凝土地面工程为背景展开研究,
本次毕业设计的选题为“传统木作工具在儿童体验教育中的设计研究”。传统木作工具是我国传统器物设计的经典实例,它既是优良的器物,也是创造其他器物的母体,不仅具有丰富的历史文化价值、较高的设计审美价值和优良的教育传播价值,而且蕴含着朴素的设计科学原理。传统木作工具应用于儿童木作体验教育意在培养儿童更深刻的逻辑思维能力、创造思维能力、艺术思维能力,提高儿童的实践动手能力、更进一步解决问题的能力等,促进传统
目前,中国城市化发展速度日益加快,基础设施建设体系也在不断优化,是否能为城市提供符合安全规定的公用管线逐步得到公众的重视。传统的电水热行业都自挖管道,或者在空中架线,造成了很多安全隐患,给市民带来了很多的不便利,安全事故也因此大大增加。为改善城市的安全与美观问题,政府向其他城市学习,开始建设地下综合管廊,为广大市民服务。Y市建设地下综合管廊时将该项目列为PPP项目,从社会融资资金,使得政府和社会开
在软件项目中,一般高层使用面向对象的编程语言进行开发,而底层使用目前主流的关系型数据库系统,如何以面向对象的方式实现对关系数据库的操作成为近年来的研究热点,关系对象
随着能源供应的短缺,环境污染严重加剧,绿色环保新能源的开发和利用刻不容缓。热电材料是实现热能到电能转换的工作介质,热电材料制成的器件具有结构简单、体积小、零污染、