论文部分内容阅读
随着互联网的飞速发展,搜索引擎日渐成为人们必不可少的一项工具。然而一方面由于搜索引擎的用户大多是普通用户,很难将自己复杂的检索目的组织成搜索引擎所需要的简单的查询词表示;因此为用户提供更多的交互式接口,提供启发式检索手段就显得特别重要。另一方面在通用搜索引擎中,当不同的用户输入同一个检索词时,搜索引擎将不做区分的返回同样的检索结果。然而实践证明,用户的检索目的是多种多样的。即使是同样的检索词,不同用户所期待的检索结果也是各不相同的。此时需要一些更加贴近用户的手段来改变这种检索方式,使得用户能够得到真正自己关心的信息。这也就是“个性化检索”所试图解决的问题。
个性化检索系统是指那些针对不同用户背景返回不同检索结果的信息检索系统。在这些系统中,文档的相关性是基于不同用户的背景和兴趣而单独计算的。而用户的兴趣和背景通常是通过显式或隐式的用户反馈来获得。通过对基于用户反馈的个性化检索技术的深入研究和探讨,本文得到了如下研究成果和结论:
(1)一种无须人工干预的、用于衡量搜索引擎排序结果质量的方法和指标QR(Quality of a Ranked list)。该指标能够用于衡量一个文档排序结果的质量;在实际的检索过程中,该指标不需人工干预即可计算得到,而以往的指标都需要有人工标注的结果集才可计算。实验结果表明了QR指标与DCG值成正比,也就是说QR指标确实反映了一个排序结果的真实质量。
(2)一种基于QR指标的个性化重排序算法。在有了OR指标的基础上,就可以通过当前排序结果的质量来衡量用户不同反馈文档的相关度高低,这正是QR加权排序算法的思想。通过这种方法,相关度较高的反馈文档将对重排序过程起着更重要的作用,从而有效的改进了个性化排序的结果质量。
(3)一种利用分类辅助的摘要比较算法scc(Snippet Comparison byclassification)。摘要比较算法是个性化重排序算法过程中必不可少的一个子模块。SCC算法的主要思想是根据搜索引擎返回摘要的特点,利用分类技术来扩展短摘要的信息,以改进摘要比较算法。该方法有效的克服了摘要文本短,内容少,无法直接比较的特点;从而改进了摘要比较的结果,进而提高了排序算法的质量。最终的实验结果验证了该方法的有效性。
(4)一种无损的基于聚类的层次KNN分类算法。KNN算法是一种经典的分类算法,然而其在处理大规模训练文档时效率上存在缺陷。本文利用层次聚类算法对训练文档进行有效的组织,实现了在提高分类效率的同时,分类质量不下降。
(5)在深入研究并探讨了训练数据集对分类结果的影响之后,本文提出了一种稳定的分类评测指标new-macro-F<,1>。该评测指标具有如下优点: (a) 在不同的训练数据集上,new-macro-F<,1>表现较稳定;(b) 使用新的评测指标,不同的研究工作在不同训练数据集上的性能可以直接进行比较;© 在给定一个分类器在某个训练数据集上的new-macro-F<,1>值时,可以推导得到该分类器在另一个训练数据集上的分类结果(即真实的分类精度、召回率以及F<,1>值)。
(6)一个个性化检索系统原型 pTianwang(PersonalizedTianwang)。它是一种基于显式用户反馈的个性化检索系统,该系统通过一个客户端来完成用户信息的搜集以及检索结果的重排序工作。用这种方式可以对不同的用户产生不同的排序效果,满足用户不同的检索目的,从而达到个性化检索的目的。