基于用户兴趣模型的个性化搜索排序研究

被引量 : 0次 | 上传用户:fwj108580853
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,互联网上数据规模呈指数增长。一方面搜索引擎的数据抓取覆盖率远不及信息增长的速度,另一方面网民的数量和质量都在提高,这对搜索引擎提出了更高的要求。搜索引擎如何提供更好的用户体验,更精确的个性需求排序结果,是现代个性化搜索引擎的研究热点和发展方向。本课题从搜索引擎整体的架构原理开始分析,提出个性化因子概念,对用户兴趣模型的构建和更新进行分析,最终实现基于用户兴趣模型的个性化搜索引擎原型系统。主要工作体现在以下几个方面:1.分析总结目前个性化搜索引擎构建方案。包括基于查询改进、设置页面权重、元搜索引擎合并和网络爬虫采集个性化方案,进而确定本课题使用查询改进与页面权重相结合方式来构建个性化搜索引擎。2.用户兴趣模型构建。根据兴趣页面概念提出兴趣页面判定公式,独创性提出兴趣模型与用户兴趣模型解耦合方式。利用ODP生成兴趣模型,形成具有兴趣等级的树状结构模型,用户兴趣模型则是用关键词及权重构成向量,通过两者之间的映射关系在实际应用中进行转换处理。重点研究用户兴趣模型构建方案,从兴趣页面提取页面特征词,利用判定公式得到用户兴趣特征词,根据兴趣特征词出现的位置重新计算兴趣特征词的权重值。用户兴趣模型更新策略体现在权值的变化上,对长期兴趣和短期兴趣以及兴趣词所在层级关系分别使用不同的遗忘因子对权值进行更新。3.在Lucene公式中引入个性化因子。对Lucene评分算法机制进行分析,利用其开源和良好的扩展性,将用户兴趣模型的权重加到排序算法中,使得排序结果体现用户兴趣偏好。4.实现个性化搜索引擎原型系统,并对结果进行比较分析。利用Nutch和封装了Lucene功能的Solr开源框架搭建个性化搜索引擎,在程序代码中调用Solr应用服务。考虑到Solr自带分词器对中文不支持,使用了第三方IKAnalyzer插件进行分词。最后选取了几组关键词进行查询并对结果进行比较分析,证明本课题所使用的个性化因子在应用中的可行性。
其他文献
【正】 一、茶文化的起源茶有几种别名。据《尔雅》载:“槚,苦茶。郭注云:即茶也。蜀人谓之苦茶。又名曰荈”。又考陆羽说:“其名有五:一茶、二槚、三蔎、四茗、五荈”。《丹
细分曲面由于没有整体解析表达式,与参数、隐式曲面相比求交更加困难。针对基于平面四边形网格的Catmull-Clark细分曲面,在给定精度条件下,把对细分曲面的求交转化为对一定细分
<正>2013年8月26日,著名作曲家、指挥家金巍先生的新创合唱作品音乐会《祖国之恋》在北京音乐厅深情唱响。本场音乐会由中国合唱协会和山西省合唱协会主办,中国广播之友合唱
针对特定的尾砂条件,选取恰当的絮凝剂是保障充填质量的重要手段之一。以云南某铁矿为研究对象,采用建筑用砂标准筛分法和马尔文激光粒度分析法分析得出全尾砂的基本特性。利
我国是一个多山川等复杂地质环境的国家。随着我国铁路建设的快速发展,山区铁路里程在全国铁路总里程中占的比重越来越大。由于多雨水气候的山区地质灾害发生频繁,所以需要将
高温超导材料已经发现很多年,但是其n指数低的固有性质使其闭环电流衰减大,且实用的高温超导接头也一直无法实现,所以高温超导体难以工作在闭环持续电流模式下,这成为制约高
<正> 音乐水平的高低,是衡量一个国家精神文明程度和文化水平的重要标准之一。我国当代大学生这方面的素质如何呢?某省电视台在举办大学生智力竞赛中,参加者竟没有一人能将准
聚乙烯作为热塑性塑料的代表,其应用价值一直被人们所关注,而寻求一种既能尽量节省成本又能提高其性能、还能减少环境污染的复合型聚乙烯是国内外学者研究的重点。聚乙烯具有耐
枣(Ziziphus jujuba Mill.)为鼠李科枣属植物,是我国特有的果树资源和独具特色的优势果树树种。枣树抗旱、耐盐碱、有较强的抗逆能力,易于栽培和管理,是新疆发展节水型林果业的