基于聚集系数的文本检索查询性能预测

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:helen_shen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,信息资源呈爆炸性增长,人们迫切地需要从海量的文档集中搜索自己感兴趣的信息,信息检索技术应运而生并发挥着越来越重要的作用。然而,目前的信息检索系统都存在严重的鲁棒性问题,查询性能预测作为最可能解决该问题的技术,受到信息检索界的广泛关注。研究人员针对查询性能预测做了大量的工作,提出了包括Clarity Score、Robustness Score等经典的算法,然而,基于检索前的方法预测的准确性较差;基于检索后的方法,预测的准确性较高,但是都要分析所有相关文档的几何特性,计算复杂度高。本文中,我们分析了信息检索的影响因素,发现查询、文档集、检索模型及模型中的参数都对信息检索性能有重大影响,而检索系统没有识别所有查询词项更是导致检索失败的根源。基于“检索系统没有识别所有查询词项是导致检索失败的根源”和“聚团性假设”两大理论,借鉴向量空间模型中的思想,我们提出了基于聚集系数的文本检索查询性能预测模型,该模型利用聚集系数来衡量检索系统对所有查询词项的识别度和返回的相关文档间的相似度,实验证明,聚集系数与查询的难易度有着显著的一致性联系,与Clarity Score、Robustness Score模型相比,聚集系数模型能够较为准确地对查询性能进行预测。相对于以往的模型,聚集系数模型有许多创新:(1)同时利用检索系统对所有查询词项的识别度和返回文档的相似度,可以获得更好的预测性能;(2)取消了“文档中的频繁词项之间相互独立”的假设和“查询词项与文档中的频繁词项相互独立”的假设,更加符合实际应用情形;(3)只需要分析返回的前k个(k一般取10)相关文档,在取得不错的预测性能的同时,计算速度非常快。除了用于解决检索系统的鲁棒性问题,聚集系数模型还可以用于分布式信息检索的结果融合、元信息检索的结果融合、帮助用户构造更有效的查询、查询扩展等众多领域,具有重要作用。
其他文献
中国地质工作者发现:河南省铝土矿资源位居全国第二位。于是有了郑州上街,一个专门冶炼铝金属的城镇。在这个城镇的经纬线上,鲜明地刻着一条登封路,登封路两旁的泡桐树枝繁
信息技术与初中数学教学的整合,能够改变以往课堂“一片寂静”的教学问题,调动的学习热情,将学生引入纵深的学习之中,更好地优化传统的初中数学教学效果.本文对现代信息技术
和谐社会的基础是民主和法制,和谐社会的核心是以人为本,创造和谐社会是新闻媒体的职责,也是每个记者的职责。当今社会,信息传播的作用越来越大,特别是随着市场经济的发 The
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
小学阅读教学效果与问题设计有很大的关系,有效的提问能轻松地引导学生真正融入到课堂教学所创设的氛围中来,激发学生探究问题和阅读的兴趣,使课堂达到事半功倍的效果.因此,
在高中英语教学中,写作教学占有非常重要的地位.不仅因为每年高考试卷中写作所占的分值很高,而且随着社会的发展,英语的交际作用日益突现.因此,高中英语写作教学一直倍受教师
不少成功者,在谈及成功时,都会感慨地谈到机遇二字,惟有企业的劳动模范,是靠对企业的忠诚和执着的追求,以主人翁精神脚踏实地抒写出灿烂的人生,在成就企业的同时,也成就了自
拆卸是再制造过程中非常重要的一个环节,拆卸批量计划更是在对拆卸进行计划与控制时需要优先考虑的问题。拆卸批量计划问题是指在一定计划期内规划回收废旧产品在各时刻的拆卸
数学与思维是相辅相成的,就初中学生的数学思维能力加以培养,有助于改善学生数学学习效率,激发学生对于数学的热爱之情,为学生数学学科核心素养的强化奠定基础.从创设情境、
与全国劳模、年仅31岁的高级焊工技师汪宏辉的初次见面,是在一个雪雨纷飞、寒风凛冽的下午.时间:2003年冬天.地点:中石化集团公司重点工程项目甬、沪、宁管线江苏宜兴段,江苏