基于用户反馈的个性化检索技术研究

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:fonely
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,搜索引擎日渐成为人们必不可少的一项工具。然而一方面由于搜索引擎的用户大多是普通用户,很难将自己复杂的检索目的组织成搜索引擎所需要的简单的查询词表示;因此为用户提供更多的交互式接口,提供启发式检索手段就显得特别重要。另一方面在通用搜索引擎中,当不同的用户输入同一个检索词时,搜索引擎将不做区分的返回同样的检索结果。然而实践证明,用户的检索目的是多种多样的。即使是同样的检索词,不同用户所期待的检索结果也是各不相同的。此时需要一些更加贴近用户的手段来改变这种检索方式,使得用户能够得到真正自己关心的信息。这也就是“个性化检索”所试图解决的问题。 个性化检索系统是指那些针对不同用户背景返回不同检索结果的信息检索系统。在这些系统中,文档的相关性是基于不同用户的背景和兴趣而单独计算的。而用户的兴趣和背景通常是通过显式或隐式的用户反馈来获得。通过对基于用户反馈的个性化检索技术的深入研究和探讨,本文得到了如下研究成果和结论: (1)一种无须人工干预的、用于衡量搜索引擎排序结果质量的方法和指标QR(Quality of a Ranked list)。该指标能够用于衡量一个文档排序结果的质量;在实际的检索过程中,该指标不需人工干预即可计算得到,而以往的指标都需要有人工标注的结果集才可计算。实验结果表明了QR指标与DCG值成正比,也就是说QR指标确实反映了一个排序结果的真实质量。 (2)一种基于QR指标的个性化重排序算法。在有了OR指标的基础上,就可以通过当前排序结果的质量来衡量用户不同反馈文档的相关度高低,这正是QR加权排序算法的思想。通过这种方法,相关度较高的反馈文档将对重排序过程起着更重要的作用,从而有效的改进了个性化排序的结果质量。 (3)一种利用分类辅助的摘要比较算法scc(Snippet Comparison byclassification)。摘要比较算法是个性化重排序算法过程中必不可少的一个子模块。SCC算法的主要思想是根据搜索引擎返回摘要的特点,利用分类技术来扩展短摘要的信息,以改进摘要比较算法。该方法有效的克服了摘要文本短,内容少,无法直接比较的特点;从而改进了摘要比较的结果,进而提高了排序算法的质量。最终的实验结果验证了该方法的有效性。 (4)一种无损的基于聚类的层次KNN分类算法。KNN算法是一种经典的分类算法,然而其在处理大规模训练文档时效率上存在缺陷。本文利用层次聚类算法对训练文档进行有效的组织,实现了在提高分类效率的同时,分类质量不下降。 (5)在深入研究并探讨了训练数据集对分类结果的影响之后,本文提出了一种稳定的分类评测指标new-macro-F<,1>。该评测指标具有如下优点: (a) 在不同的训练数据集上,new-macro-F<,1>表现较稳定;(b) 使用新的评测指标,不同的研究工作在不同训练数据集上的性能可以直接进行比较;© 在给定一个分类器在某个训练数据集上的new-macro-F<,1>值时,可以推导得到该分类器在另一个训练数据集上的分类结果(即真实的分类精度、召回率以及F<,1>值)。 (6)一个个性化检索系统原型 pTianwang(PersonalizedTianwang)。它是一种基于显式用户反馈的个性化检索系统,该系统通过一个客户端来完成用户信息的搜集以及检索结果的重排序工作。用这种方式可以对不同的用户产生不同的排序效果,满足用户不同的检索目的,从而达到个性化检索的目的。
其他文献
图像不变局部特征是新近兴起的一类图像特征,基于不变局部特征的图像表示是计算机视觉的热点研究问题,在理论研究和实际应用上都具有重要意义。本论文针对图像不变局部特征的原
二十世纪六十年代,遥感技术作为一门新兴的综合性探测技术蓬勃发展起来。而遥感图像处理技术的研究是遥感技术中的一项十分重要的内容。由于成像设备硬件制造技术方面的原因,使得所获取的数字图像是地面信息的欠采样,从而得不到理想的高分辨率的图像。另一方面,由于光照大气及平台和地球之间的相对运动,也使成像产生模糊和降质,降低图像分辨率。提高遥感图像的分辨率一直是人们追求的目标,实现这一目标的有效途径之一便是采用
点云拼接是逆向工程、文物数字化、三维视觉信息处理中数据处理的重要内容,在逆向工程中要求更高的点云配准精度、文物数字化要求完整点云信息;以及计算机视觉中需要更快速的三
为了加强货运安全,铁路货运部门正在加快建设货运安全保障体系,其中货运计量、危险货物运输、规章文电等专项系统已经建成并得到推广应用,但是各专项系统相互独立,尚未形成统一的
电子政务已受到国家的高度重视,同时社会对电子政务系统的功能和性能的要求也日益提高。当前大量的电子政务系统多为B/S模式的Web应用程序,但在不同程度上存在着可扩展性差、互
随着World Wide Web的不断发展,网络上在线可用的数据库越来越多,这种在Web中只能通过查询接口访问的在线数据库被称为Web数据库。然而,随着Web数据库中所蕴含信息量的逐渐增加,
功耗建模与评测是现代低功耗设计的基础。由于芯片设计规模的增长,进行快速的门级功耗评测成为设计流程中的重要问题。同时,在设计周期的前端进行高层次功耗建模与分析,逐渐成为
学位
为适应国家实施投资体制改革的新要求,实现对全社会固定资产投资的全口径管理,提高政府部门间的协同办公能力和决策的科学性,更好地为国民经济建设服务,建设基于J2EE和ESB技术的
随着计算机的日益普及和网络覆盖率的扩大,计算机病毒的种类及病毒的变种越来越多,造成的危害也越来越大。随着病毒变种的出现,传统的计算机病毒检测方法的检测效率大幅降低。针
随着全球信息技术的飞速发展,文档数量急剧增加,人们的查询需求日益多样化,传统的文档检索系统已经不能满足用户需求,因此文档检索的研究具有重要的研究意义和广泛的应用价值