论文部分内容阅读
为了更精确地检索信息,越来越多的长查询(Long Query)被用于信息检索中。但是目前很多搜索引擎并不能很好地处理长查询。这是因为长查询在带来较准确匹配的同时会带来较多的不相关信息,从而在一定程度上干扰用户的检索。查询切分就是在此背景下提出的。查询切分的目的是将查询分成有意义的若干个查询块再进行检索,因为这有利于检索系统根据有意义的查询块来分析用户的搜索意图,从而反馈给用户更合适的结果。我们在本文中提出了一种基于计算查询词关系在其主特征空间相似度的切分模型。在本模型中,我们根据查询词的N元组(N-gram)之间的频率来建立查询词之间的关系矩阵。并将此关系矩阵映射到其特征主空间进行查询切分。不仅如此,我们还提出了一种确定主特征空间维数k的方法。实验表明我们的算法相对其它算法(基于MI、EM的切分方法)有着很大的提高(在F-Measure上分别提高了35.8%和17.7%)。在此查询切分工作基础上,根据查询切分中的不足,比如切分后的某些查询词(组)是没有意义的且切分块上也没有一定的权重,因此,我们提出了对互联网中的长查询提取其关键短语的做法。同时我们的工作是较早对互联网长查询提取其关键短语的研究。受到谱聚类以及前面切分工作的启发,我们首先从长查询中提取为短语,其次对每个短语进行赋予权重,并根据每个短语权重的大小来判定该短语是否为关键短语。在此工作中,我们进一步深入研究和探讨了查询切分工作中相关问题,并在如何表示查询词之间的关系、如何确定主特征空间的维数等方面上给出了更优的解决方案。通过与基于名词短语提取、TFIDF方法关键短语提取以及基于k-means方法的关键短语提取等方法的比较,我们的算法在从长网络查询中提取关键短语取得了出色的效果。我们在本文的最后给出查询切分开发工作中的相关细节,并以最大匹配切分来辅助我们的切分。该实现方法不仅在切分速度上面得到了大幅的提升并且还可以解决一些特殊长查询切分中遇到的难题。随后,我们就长查询关键短语的提取在查询建议、目录搜索中给出了具体的分析和应用。