基于主题模型的查询扩展技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:luohuixian11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的高速发展,大量的信息不断的呈现在互联网上,信息检索已经成为人们获取信息的必要的手段。搜索引擎的出现极大地满足人们的需求,让人们能够轻松地面对互联网上的海量信息。在用户进行检索的时候,影响用户搜索体验的一个重要原因是往往用户在进行搜索的时候的查询词较短,大部分用户在进行搜索的时候常常只用很短的几个关键词,造成查询表达与意图不一致,会大大影响用户的搜索体验。一些学者开始专注于查询扩展技术在信息检索中的应用,该方法利用对用户的初始查询词进行扩展得到新的检索词,从而达到改进检索性能的目的。作为信息检索的一种有效的查询优化方法,查询扩展技术的研究具有重要的意义。在查询扩展的时候,如果得到的扩展词与查询是不相关的,可能降低检索结果。尤其是一个文档可能有多个主题,为了解决这些问题,基于主题模型的查询扩展算法应运而生。基于主题模型的查询扩展方法由于能够很好地考虑到了查询与文档之间的主题语义相关性,逐渐被一些学者关注。本课题对现有基于主题的算法进行了深入的了解和分析,结合了一些研究提出了基于主题互信息和基于主题词对的两种语义查询扩展方法。这两种方法都是通过使用LDA主题模型作为提高检索性能的方法:(1)基于主题互信息的方法不仅利用了查询词与候选词的互信息的同时也考虑到了主题的相关度,该方法解决了基于主题模型的查询扩展方法中主题代表词的选择问题,使用了互信息作为查询词与主题词的相关度保证了主题代表词与查询之间的相关度。(2)基于主题词对的查询扩展方法中,创新性的使用了主题向量作为词对之间的语义相关度,该方法使用词对之间的相似度用作候选词与查询之间的相关度。我们在使用了词对之间的相关度得同时,也引入了词与词之间的Dice相似系数。综合了原查询词和候选扩展词之间的这两方面的相似度的因素。我们把扩展词放入原查询词得到新查询词,进行再次检索,最终得到检索结果。经过实验证明本文提出的两种扩展算法方法相对于RM3、LCA和主题模型查询扩展算法MAP和P@10结果都有明显提升。
其他文献
学位
流数据存在于工业生产、生活活动、商业交易等领域,与人们的生活、生产等息息相关,因此对流数据的研究是十分有意义的。流数据挖掘的主要方向之一是在其上挖掘关联规则。流数
随着多媒体技术、计算机技术、通信技术以及 Internet 网络的迅速发展,人们越来越多地接触到各种各样的图像信息。伴随着大规模图像数据库的产生,传统的信息管理方式已经不能满
近年来,随着科学技术、生物医学、互联网、安全认证以及金融等其他领域的快速发展,多维度特征的数据分析与处理技术倍受关注,然而多维度序列其特征的高维性,使得传统的数据分
移动Ad hoc网络是一种新型的无线自组织网络,与常用的蜂窝网络和无线局域网不同,它不需要固定基站或控制中心,可以在任何时候,任何地点快速构建起来,因此近年来受到越来越多的关注
随着互联网的发展,人们的社交生活及信息获取方式发生了巨大的变化。微博的兴起让人们能够快速获取海量信息,如何从海量信息中自动发现有价值的内容并推荐给用户具有重要意义
由第三代合作伙伴计划(3GPP,3rd Generation Partnership Project)提出的自适应多码率语音编码解码标准(Adaptive Multi Rate,AMR)是基于3G平台的语音业务编码规范,可根据无
在城市交通迅速发展,车辆保有量日益加大的背景下,智能交通系统的研究和应用越来越受到重视。不过,目前的智能交通系统研究更多的集中于集中式系统的领域,随着系统负荷的增加
随着网络技术的不断发展,3D网络游戏越来越受到广大青少年的喜爱。而我国政府也逐渐加大了对游戏产业的支持,例如国家已将游戏引擎的研制列入863攻关计划,国家体育总局也已经
近年来随着网络技术的飞速发展,在Internet上产生了许多高带宽应用。在各种解决网络带宽瓶颈方案中,IP组播技术是最有优势的方案之一。如果使用了组播技术,即使网络中的用户