基于Nutch的科技项目主题搜索引擎研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:honghe2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的日益增长,通用搜索引擎已经无法满足用户对于特定领域信息的查询需求。搜索引擎正在向个性化、主题化、智能化发展,其中基于某种特定主题的搜索引擎已成为一个研究热点。目前,在科技项目领域,科技项目信息获取基本靠通用搜索引擎查询和专家经验,通过科技项目主题搜索为用户提供相关项目信息的研究还比较少。本文针对通用搜索引擎查询无法为用户提供深入科技项目信息的问题,设计开发基于科技项目主题的搜索引擎系统,方便用户准确了解科技项目发展状况。论文研究工作如下:(1)分析主题爬行器的关键技术,研究提出基于科技项目主题的爬行器模型。模型通过选择权威页面作为初始URL种子页面,选取项目模板文档训练科技项目主题词库,应用改进的VSM余弦方法判定网页主题相关性,提出基于Shark Search和Hits的主题爬行策略。该模型过滤科技项目主题相关性差的网页,使爬行器能够更多的爬行主题相关网页,提高网页爬行质量。(2)针对PageRank算法容易产生“主题漂移”,偏重旧网页的问题,提出一种基于时间衰减因子的改进算法TD-PageRank (Time Decay PageRank)。该算法将网页内容表示为空间向量模型,运用TF-IDF计算关键词权值的基础上,给予网页不同区域关键词相应权值,减少“主题漂移”,加入时间衰减因子,以此来加速旧网页“沉淀”。实验表明,改进的算法相较于PageRank算法,主题相关的新网页在排序中上升,更多的主题相关的网页排在结果集前列。(3)基于以上两点研究成果,结合Nutch开源搜索引擎,设计基于科技项目的主题搜索引擎原型系统。系统对Nutch爬行模块进行改进,加入主题相关性判定模块和主题词库训练模块,加入IKAnalyzer中文分词,通过结合Nutch评分机制和TD-PageRank算法改进查询结果排序,设计用户查询接口。实验测试验证原型系统的可行性。在国内对于科技项目领域主题搜索引擎研究较少的背景上,本文在科技项目主题搜索引擎方面所做的研究成果对科技项目搜索领域起到“抛砖引玉”的作用。
其他文献
随着各种无线通信网络和GPS传感器网络的不断发展,各种移动对象的轨迹数据大量地被收集,这些数据中隐藏了很多有用的知识,因此,非常有必要对这些数据进行有效的挖掘和分析。移动
高光谱遥感图像目标检测是高光谱遥感理论与应用研究的重要环节。由于高光谱图像数据的复杂性,如波段间非线性相关、普遍存在混合像元、训练样本少、噪声影响、同物异谱、同
学位
信息总量巨大,分散存储在不同地点,涉及隐私保护的信息增多等是当今数据信息所呈现出来的新特点。由于网络带宽,隐私保护和单机处理能力有限等因素的限制,难以将这些信息聚集
人脸检测作为人脸识别和人脸图像信息处理的关键技术,其检测效果会直接影响到后续课题的研究。由于图像容易受到成像设备、成像条件以及存储方式的影响,致使人脸检测技术在投入
无线传感器网络(Wireless Sensor Networks,WSNs)是一种由大量低成本、低功耗、有无线通信功能的传感器节点组成的网络系统。无线传感器网络技术的发展,离不开大量基础技术的
决策支持系统作为一种先进的科学技术手段,能为问题的解决提供备选方案,有助于提高决策人员的决策水平。模型库系统作为决策支持系统的三大组成部分之一,可为决策支持系统提
无线传感器网络是由许多低成本、低功耗同时具备信息采集、数据处理以及无线通信能力的微型传感器节点通过多跳、自组织的方式形成的一种网络结构。正是凭借低成本、多功能及
Hash函数作为数字签名的基石,不仅用于检测网络通信信息是否被篡改,而且是保障电子签名、身份认证等多种密码系统安全的关键技术,有着十分重要的作用,目前Hash函数的安全性分析均
SPARQL是W3C推荐的基于图匹配机制的RDF查询语言。随着互联网上大规模RDF数据集的不断涌现,现有的查询算法无法满足高效的获取查询结果的需求。提出了一种针对SPARQL语句的运