基于用户行为分析的本地搜索排序算法优化

被引量 : 3次 | 上传用户:jdwenge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
虽然搜索引擎出现至今只有二十多年的历史,但是,已经从起初的服务器检索发展到网上海量数据的搜索。现在,由于人们对检索结果质量的要求逐渐提高和网络信息量的迅速增加,使得搜索引擎开始向着专业化、人性化方面发展。本地搜索引擎作为通用搜索引擎的个性化实现,在检索内容和数据结构等方面都有着明显的区别,传统的排序算法并不能完全适用于本地搜索。本地搜索内容和人们的日常生活息息相关,检索的过程很大程度上依赖于用户的行为习惯。结合本地搜索的特点,通过对通用搜索和本地搜索中的用户检索行为进行对比分析,本文提出了基于用户行为特征的本地搜索引擎系统框架。首先,使用Nutch搜索引擎作为基础部分的核心,增加本地生活词典运用双向匹配法进行中文分词,提出适用于本地搜索的POI三部分索引,实现了本地搜索引擎的爬虫、索引和检索三大基础模块。然后,分析目前通用搜索利用用户行为特征进行优化搜索的研究发展现状和现有用户行为特征采集的方法,对比本地搜索和通用搜索的特点,选取适用于本地搜索的用户行为特征,并提出了本地搜索的用户行为特征采集方案。最后,为了使用提取的本地搜索用户行为特征运用到排序优化中,将机器学习的SVM分类算法变为适用于排序的SVM排序算法,再运用SVM排序算法将采集到的本地搜索用户行为特征值和通用搜索的排序结果相融合,得出基于用户行为分析的本地搜索排序结果。为了验证用户行为对排序结果的优化作用,使用三种方法进行对比实验。实验结果显示,融入了用户行为特征后,本地搜索的排序结果平均准确率和前十名文档的相关性都有了一定的提高。用户行为特征使得排序结果可以更容易、准确地反应用户的兴趣,提升了用户的搜索体验。
其他文献
对石墨化热处理温度与其充放电性能的关系以及锂在石墨负极中不能可逆嵌脱的原因进行了研究 .在不同的最高热处理温度 (tmax为 2 0 0 0 ,2 2 5 0 ,2 5 0 0 ,2 75 0 ,3 0 0 0
本文主要以程颐的性、心、情的建构讨论其宇宙论与工夫论。另外,作者会涉及程颐哲学体系当中的重要观念,包括但不限于“性即理”、“性其情”、“涵养用敬”、“集义”和“浩
随着经济的快速发展,城市建设投资力度加大,各类古建筑物不断遭到破坏,城市历史文脉被埋没。为保护扬州的历史文化和街巷景观,扬州市政府出台了一系列的方针政策,使得老城区在快速
<正> 中国未来教育研究会执委、著名早期教育专家冯德全先生及其专家小组集十八年潜心研究之成果,设计此“0~6岁优教工程及实施方案。”“方案”已在国内外60万个家庭实施,普
自2006年以来,我国股市经历了剧烈的波动,上证综合指数从06年年初的1350点左右历经一年半的猛涨在2007年10月16日达到创纪录的新高——6124.04,随后急转直下,经过一年时间又
城市环境规划作为调控人们生产生活活动,减少污染,防止资源破坏,保护人类生存、经济和社会持续稳定发展所依赖的基础,它担负着从整体上、战略上和统筹规划上来研究和解决环境问题
本文分析了目前传统的按面积平摊中央空调计费方式的缺点,按照“建设资源节约型社会”目标,提出了中央空调分户计量的意义、市场需求,介绍了两种有利于节能的中央空调系统分
“熊胆蒙花散”治疗白塞氏综合征35例齐齐哈尔市继宏中医眼科诊所(161006)宫继宏,宫建雅关键词白塞氏综合征;中医药治疗一、一般资料1.性别:男22例,女13例;年龄20~30岁15例,30+~40岁11例,40岁以上9例;病程1年以内27例,2年...
关于“惯例”和“习惯做法”,一直存有许多争议。CISG第9条规定了“惯例”和“习惯做法”,但却没有对其定义,更没有对其在实践中产生的一系列争议做出规定,如如何认定习惯做
物联网被称为继计算机、互联网之后世界信息产业发展的第三次浪潮,是人类社会发展的必然产物,它通过智能感知、识别技术、普适计算、泛在网络(Ubiquitous Network)的融合应用将人