面向学术检索的用户点击特征重构方法研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:yaya_tush
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何提升搜索引擎性能,特别是针对特定领域如学术搜索领域的信息检索质量,是一个有广泛应用前景且充满极大挑战的难题。通常认为用户使用搜索引擎的反馈,例如用户的点击行为,与其搜索意图密切相关。特别是在学术搜索中,用户希望得到准确的搜索结果,会更多地参与信息检索过程,随之产生大量的信息反馈行为。基于此,可以利用用户的点击行为推断文档与查询之间的相关性,提升搜索性能。但遗憾的是,实际应用中大量的用户反馈集中在少数查询中,而大多数查询缺乏用户反馈。用户反馈往往富含噪声、数据稀疏,或完全缺失。因此如何重建用户反馈信息,使其更真实、更有效、更稠密,变成目前工作的一个瓶颈。  目前对用户的点击特征进行分析,存在着如下的问题待解决:  1.如何在提升点击特征的稠密度的同时保持数据的有效性?如果把查询和文档看成一个矩阵,行对应着查询,列对应着文档,里面的元素值对应着文档在查询下的点击值,那么这个点击矩阵就是一个稀疏矩阵。现有的方法中,矩阵重构方法为我们提供了新思路。因此,如何利用矩阵重构的方法来提升点击矩阵的稠密度是需要解决的。由于点击矩阵中的信息是很有限的,因此如何充分挖掘出查询之间或是文档之间的关系,并且利用它们的关系进行点击矩阵的重构是一个挑战。  2.对于一个高维的点击矩阵,如何建立高效的重构算法?矩阵重构方法中需要对矩阵进行大量的运算,因此对于大规模的点击矩阵如何在可接受的时间空间中完成矩阵重构是我们需要考虑的。  为了解决这些问题,我们提出了一个面向学术检索的用户点击特征重构排序的框架:  1.结合低秩矩阵分解模型与同质化模型。低秩矩阵分解模型在矩阵重构中被广泛应用,能够保持原有矩阵特征的情况下,提升矩阵的稠密度,解决矩阵的稀疏问题。而同质性模型中,利用同质性正则项来约束各查询之间与各文档之间的关系,使得相似文档在相似查询下的点击次数保持一致性,解决数据的噪音和漂移问题。  2.结合查询分组法与基于块耦合非负矩阵分解方法求解。一般的非负矩阵分解的方法来重构矩阵的性能有限,我们采用特殊的基于块耦合非负矩阵分解来进行迭代求解。在迭代求解之前,我们对高维的点击矩阵按照查询进行分组成小的矩阵,提高矩阵的重构效率。  3.基于机器学习排序的学术检索结果排序。利用机器学习排序模型对待排序的数据进行模型训练,比较多种不同的排序模型下用户点击特征重构后的文档检索性能。  本文通过在微软学术搜索数据集进行试验,对比了利用原点击特征和重构后的点击特征的文档排序性能,证明了我们提出的方法可以有效地重建点击特征以提高学术搜索引擎的检索性能。
其他文献
本文结合目前知识管理系统的各种前沿技术,针对目前知识管理系统的缺点,给出了一个实用的架构于企业内外网的知识管理解决方案,并设计了一个完整的企业知识管理系统.本论文主
联机分析处理(OLAP)是数据仓库最主要的应用之一,OLAP查询需在海量数据上进行即席(ad hoc)的复杂聚集查询,并要求及时向用户提供分析数据,用以辅助决策。这种使用方式对查询响应
本文分析了油菜有效角果数、每角粒数、千粒重、角果皮表面积与产量之间的关系,并对构成产量三因素在不同密度水平、不同结角部位上的变化特点进行了研究。结果表明,不同密度
随着网络技术与信息处理技术的迅猛发展,政府以及企业单位在网络办公、信息的网络采集与反馈、信息智能处理等方面的需求也越来越大。目前大多数信息的采集与处理主要采用两种
《四川城乡建设报》定于今年春节创刊。这张四开小报是面向全省城乡建设系统的综合性报纸,主要任务是宣传党和国家有关城乡建设的 “Sichuan Urban and Rural Construction
电子竞技运动是一项新兴的体育项目,虽然出现时间不长,但发展迅猛。然而由于目前大多数虚构化电子竞技项目具有浓重的电子游戏色彩,致使许多学者和群众对整个电子竞技运动持怀疑
随着空间科学的不断发展,空间数据传输系统中音、视频数据以及大量科学实验数据的传输变得越来越重要。在空间飞行器采用CCSDS AOS标准对多路语音、图像、实验数据进行信道复
乳腺癌是现代女性最常见的恶性肿瘤之一,但是目前尚无有效的一级预防措施。只有通过早发现早治疗,才能提高乳腺癌的治愈率和降低患者的死亡率。乳腺X线摄影是一种在乳腺癌普
作为计算机技术和信息系统发展的必然产物的地理信息系统(Geographic Information System,简称GIS)已成为当今软件技术领域和信息领域的热门话题.多尺度、多类型、多时态的地
作为大学灵魂的学风与体现学校全面素质和整体教育水平的校园文化之间具有相同的系统性、渐进性、层次性和复杂性,两者相辅相成,不可分割.以形成优良学风为旨归,把学风建设渗