查询分析在信息检索中的应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wyp345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了更精确地检索信息,越来越多的长查询(Long Query)被用于信息检索中。但是目前很多搜索引擎并不能很好地处理长查询。这是因为长查询在带来较准确匹配的同时会带来较多的不相关信息,从而在一定程度上干扰用户的检索。查询切分就是在此背景下提出的。查询切分的目的是将查询分成有意义的若干个查询块再进行检索,因为这有利于检索系统根据有意义的查询块来分析用户的搜索意图,从而反馈给用户更合适的结果。我们在本文中提出了一种基于计算查询词关系在其主特征空间相似度的切分模型。在本模型中,我们根据查询词的N元组(N-gram)之间的频率来建立查询词之间的关系矩阵。并将此关系矩阵映射到其特征主空间进行查询切分。不仅如此,我们还提出了一种确定主特征空间维数k的方法。实验表明我们的算法相对其它算法(基于MI、EM的切分方法)有着很大的提高(在F-Measure上分别提高了35.8%和17.7%)。在此查询切分工作基础上,根据查询切分中的不足,比如切分后的某些查询词(组)是没有意义的且切分块上也没有一定的权重,因此,我们提出了对互联网中的长查询提取其关键短语的做法。同时我们的工作是较早对互联网长查询提取其关键短语的研究。受到谱聚类以及前面切分工作的启发,我们首先从长查询中提取为短语,其次对每个短语进行赋予权重,并根据每个短语权重的大小来判定该短语是否为关键短语。在此工作中,我们进一步深入研究和探讨了查询切分工作中相关问题,并在如何表示查询词之间的关系、如何确定主特征空间的维数等方面上给出了更优的解决方案。通过与基于名词短语提取、TFIDF方法关键短语提取以及基于k-means方法的关键短语提取等方法的比较,我们的算法在从长网络查询中提取关键短语取得了出色的效果。我们在本文的最后给出查询切分开发工作中的相关细节,并以最大匹配切分来辅助我们的切分。该实现方法不仅在切分速度上面得到了大幅的提升并且还可以解决一些特殊长查询切分中遇到的难题。随后,我们就长查询关键短语的提取在查询建议、目录搜索中给出了具体的分析和应用。
其他文献
向量值广义泛函在白噪声分析理论中扮演着重要的角色.本文引入了一个Banach空间值Bargmann-Segal空间E2(v.X),其中v是广义函数空间E*C上的复Gauss测度,X是一个可分自反Banach
本学位论文主要研究以下几类情形的临界Choquard方程:有界区域上的齐次和非齐次临界Choquard方程,强不定型临界Choquard方程和带深势阱的临界Choquard方程,并利用变分方法得到
符号模式矩阵理论主要研究矩阵的仅与其符号模式有关的定性性质。符号模式矩阵最早起源于经济学中对某些问题的定性性质的研究。符号模式矩阵的研究来自于对线性动力系统的符
本文借助Kurzweil积分和广义常微分方程理论,讨论了测度微分方程解对参数的连续依赖性及解关于参数的可微性。
广义指派问题是指在限定每个人拥有的资源量情况下将m项任务指派给n个人,一个人可以执行几项任务,但一项任务只能分配给一个人.指派问题的目的是使总费用最小,或者总效率最高.在