相关性排序技术的几点研究

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:xiwang452
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对搜索引擎相关性排序中的三方面技术进行了系统的研究:链接分析,段落检索和相关反馈,它们分别从不同的角度来改进相关性排序结果。主要创新工作和成果如下:第一,提出PageRank链接分析算法的存储优化方法。基于链接分析的PageRank算法需要计算网络所有结点的网页重要性分数,即PageRank值,因而网页结点的合理存储是该算法顺利运行的关键,本文通过数学推导以及利用稀疏矩阵的特点将算法空间复杂度由O(n^2)降至O(n),同时大大提高了算法迭代效率。第二,提出段落检索与全文检索相结合的排序方法。以段落为粒度索引的排序方法能够有效的提高检索的准确率,但会使得召回率有所下降,为了减轻召回率的损失,提出将段落权重和全文权重相结合的排序方法,结果使得准确率得以提高,同时确保了召回率。第三,实验分析Rocchio相关反馈算法在应用中的优劣势。Rocchio是经典的基于向量空间模型的相关反馈算法,本文通过实验分析了其在改进排序结果上的有效性以及算法的优劣势。
其他文献
新中国成立后,老一代少数民族美术家,以其丰富的阅历、深厚的艺术造诣、丹青妙笔为中华民族美术园地带来过成就与辉煌。改革开放后,新一代少数民族美术家们较之老一辈美术家
旋转机械是工业部门中应用最为广泛的一类机械设备。随着转子的工作转速和效率的提高,转子系统的动静件碰摩是旋转机械中常见的故障,也是引起机械系统失效的主要原因之一。带
助人行为是亲社会行为中最突出的一种表现,是个体与他人之间关系的体现,也是社会交往活动的重要内容。观点采择与共情反应是助人行为的两大重要影响因素,它们在内群体与外群
《黃帝内經》是先秦兩漢的著作,當中含有很多通假字,可能會導致誤解。另外,它們本身還含有相當重要的語音信息,可以幫助我們完善先秦兩漢的語音系統。因此對這些通假字進行判
钱仲联先生等《清诗纪事·前言》指出,“叙事性是清诗的一大特色,也是所谓‘超元越明,上追唐宋’的关键所在”。“以诗歌叙说时政、反映现实成为有清一代诗坛总的风气。十朝
本文在阐明亲社会行为的基本概念和培养幼儿亲社会行为的意义基础上,论述了家庭教育在幼儿亲社会行为培养中的作用,并对如何在家庭教育中培养幼儿亲社会行为进行了探讨。
随着我国信息化发展的逐步深入,我们对信息系统的依赖越来越强,大型企业的信息系统应用众多、结构复杂、覆盖地域广阔、涉及的部门和人员众多。系统面临着各种性质的安全威胁
英国牛津大学素以其悠久的历史、厚重的学术传统和优秀的人才培养质量居于世界高等教育发展史的领先地位。在大学职能日益多样化的今天,牛津大学始终坚持和重视对本科生的培
研究电厂温排水对陡河水库富营养化的影响。陡河水库属我国北方地区多功能浅水型水库 ,已运行 4 0余年。库区水情较复杂 ,热影响严重 ,营养盐偏重 ,具有一定的典型意义 ,可供
在对以不饱和聚酯树脂和玻璃纤维布为关键制作材料的8 m3农村户用玻璃钢沼气池的结构设计、性能参数、加工工艺等质量性能进行测试的基础上,以混凝土沼气池为对照,对其产气效