基于联邦检索思想的微博搜索研究

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:shulili1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,互联网中的各类应用越来越多,用户在网络中的参与度正在逐渐提高,人们所处的网络也正在朝着社会化网络迈进。微博服务就是社会化网络中最为典型的一个应用,它以内容精简、发布方便等特点吸引着越来越多的用户。随着微博用户数量的不断增加,用户在微博平台中生成的内容也呈指数级形式增长。然而,针对微博内容的搜索还是采用传统的集中式检索模式,带来了一定的问题。首先,由于微博数据量庞大,直接搜索全部微博会比较耗时,降低用户的搜索体验;其次,微博主题太多,采用集中式检索有可能造成准确率不高;最后,集中式检索只能使用一种检索模型,而联邦检索可以针对不同数据集提供不同的检索模型,灵活性更强。联邦检索是信息检索的一个重要分支研究领域,它可以分布式地搜索不同的数据集,解决了集中式检索中效率、准确率均不高的问题。联邦检索首先会判断每个数据集和查询词的相关性,然后将查询词送往相关性较大的数据集进行检索,最后将检索结果合并后返回给用户。因为查询的数据集都相对相关,在搜索结果准确率方面比集中式检索相对要高,同时,解决了数据集过于庞大,无法有效检索的问题。基于联邦检索的优势所在,本文提出了一种基于联邦检索思想的微博搜索技术。该技术将联邦检索的思想应用到微博搜索领域,同时考虑到微博文本的特殊性,融入微博作者的权威度因子,使文档排序得分的计算更加精确。在真实微博数据集上的实验结果表明,本文所提出的方法能提高微博搜索的准确率。本文主要做了以下几个方面的工作:(1)开发基于联邦检索思想的微博搜索框架。本文的研究重点是针对微博数据采用联邦检索技术进行信息搜索。为此,首先建立适应微博搜索的联邦数据集,生成每个数据集的数据集描述;然后采用数据集选择方法,根据已经建立好的数据集描述,计算查询词和每个数据集的匹配得分,将数据集按照相关性进行排序,选择若干相关性较大的数据集;接下来将查询词送往被选择的数据集进行搜索;最后,合并不同数据集返回的结果,形成单一搜索结果列表,并返回给用户。(2)提出一种融合微博作者权威的结果合并算法。本文考虑到微博的特点,在前人研究的基础上,提出了一种融合微博作者权威的结果合并方法。实验结果表明,与以往的结果合并方法相比,本文所提出的方法能有效提高搜索结果的准确率。(3)设计基于联邦检索思想的微博搜索系统。在前两章的基础上,设计实现了基于联邦检索思想的微博搜索原型系统。系统主要包括微博索引建立、普通搜索以及联邦检索三大功能模块,最后本文对系统进行了演示。
其他文献
随着网络技术在社会各个领域的迅猛发展和互联网上资源的迅速积累,海量数据的共享、异构数据源(结构化、半结构化、非结构化)的统一管理已经成为当务之急。企业也需要将DBMS,
网络安全是关系到国家利益、集体利益和用户切身利益的大事,是只能依靠我国自身力量发展的技术。其中数字签名技术能够确认参与者的身份,防止恶意的伪造、窜改,在网络通信安
模式匹配问题在计算机科学的基本问题之一。随着科技的发展,带有通配符的模式匹配技术在诸多领域都有重要的应用,如在信息检索、计算生物学和序列模式挖掘等领域。带通配符的
复杂网络是指具有复杂拓扑结构特征的一类网络,现实世界中的社交、运输、生物等许多系统都可以被看作是复杂网络。由于它的广泛应用,复杂网络的脆弱性问题已经成为被大量关注
本文针对工商行政管理的具体特点,给出了一个覆盖工商行政管理绝大部分业务,适用于多级工商管理部门的系统解决方案,并就其数据库设计、开发和数据同步进行了详细的阐述。项
本文在研究建模与元建模理论的基础上,对现有建模方法和元建模现状进行了对比和分析,提出一套比较实用的基于MOF标准的元建模方法。在此基础上,设计了一个基于MOF标准的元建模环
近年来多目标进化算法引起了许多研究者的广泛关注,并且先后出现了很多多目标进化算法。研究者认为一个真正有效的进化算法在于它能求解较难和较复杂的问题,而不只适用于求解
随着数据库、数据仓库以及Internet 技术的应用发展,使得数据挖掘(Data Mining)和知识发现(Knowledge Discovery)引起了大量学者与专家的关注,越来越显示出其强大的生命力。
可再生能源开发战略是国家十二五规划的重要组成部分。小水电是一种资源分布广、开发潜力大、环境影响小、可扩展利用的可再生能源,在国家能源发展战略上有着重大意义。在现阶段,考虑到水电机组的复杂性以及小水电站位置的苛刻性,通常采用专人值守的形式进行设备维护与异常监测。其过程不仅效率低下,而且过分依赖于工作人员的经验知识,往往具有较高的误判率,因此有必要研究机器学习理论与统计学理论并实现高性能识别算法,用于
文本的特征描述是自然语言处理、文本分类、聚类、中文信息检索、个性化服务等研究中的一项基础性工作,它研究的是用什么样的方法和模型来表示文章的主题思想。这个描述一方