面向特殊主题的排序与检索算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:network_worm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet高速发展的时代中,人们通过通用搜索引擎的帮助从浩瀚的信息海洋中寻找自己需要的信息,但通用搜索引擎因为本身涵盖的信息过于广泛而导致了人们往往不能迅速准确的搜索到需要的信息,针对这种情况主题搜索引擎诞生了。主题搜索引擎的专业性和抗干扰性使得检索准确率大大提升。随着网络信息多样化发展,常见的主题搜索有:科技文档搜索、电影资料搜索、数码时尚搜索、书籍期刊搜索、新闻搜索等。但没有一种主题搜索引擎技术能适用于所有的主题领域,有些主题领域具有一些与上述主题领域不同的特点,例如药物商品搜索、职位信息搜索等,这类主题领域的信息同时具有文档结构固定、多词同义现象严重、查询词在文档中出现少等特点。对于这类特殊主题领域,普通检索技术往往不能获得良好的检索效果。本文主要工作即针对这类特殊主题搜索引擎的排序、检索与性能优化算法展开深入研究,主要工作有:(1)提出了一种能更好的适应特殊主题领域的SPF-PR(Specifically Focused PageRank)网页排序算法。PageRank算法是基于超链接分析技术的页面排序算法,随着网页链接结构的复杂程度不断增加,PageRank算法为了适应具体的不同应用需求还需要不断改进和完善。本文在传统PagerRank算法的基础上提出了SPF-PR算法。SPF-PR算法采用了超链接锚文本与领域向量之间的相似度来控制传统PageRank算法的主题漂移现象,比传统PageRank算法具有更高的检索性能。(2)针对特殊主题领域的文档特点设计了SEB-VSM(Seed Extension Based VSM)检索模型。目前多数搜索引擎采用的VSM (Vector Space Model)检索模型并不适用于某些特殊领域的检索,本文在VSM检索模型的基础上设计了SEB-VSM检索模型来提高特殊主题搜索的检索性能,解决了VSM检索模型不适用于特殊主题领域检索的问题。(3)设计了一种基于Lingo聚类算法的SEB-VSM检索模型优化方案,包括特征降维与相似度优化。基于Lingo聚类的特征降维技术降低了文档向量的维度,提高了相似度计算的执行效率,降低噪音数据对相似度计算的影响;基于Lingo聚类算法的相似度优化,减小相似度计算的误差。经实验证明基于Lingo聚类的特征降维与相似度优化能有效的提高SEB-VSM检索模型的性能。最后应用上述改进与优化算法,设计了一个面向特殊主题的搜索引擎系统,采集了大量网络数据进行测试,实验证明上述改进能在本文研究的特殊主题领域中有效的提高检索性能,在实际应用中具有较高的实用价值。
其他文献
随着计算机网络的不断发展,实时共享网络资源已经成为可能,但是同时也带来了海量的信息资源。为了能够从海量纷杂的文本信息中及时准确地获取有效的知识和信息,人们开始关注
本文对聚类算法和遗传算法展开了研究,并且分析了它们的优缺点。K-medoids算法容易陷入局部最优解、对初始值敏感,而遗传算法具有全局搜索的能力和隐并行性。针对这两方面的
移动AdHoc网络是无中心、自组织的多跳无线网络。在AdHoc网络中,由于移动终端的能量有限,而从硬件上电池能量的提升空间有限,使得节能问题成为移动AdHoc网络的一个研究热点。论
容侵技术作为第三代信息安全技术,已经受到越来越多领域研究者的关注。为了屏蔽失效的节点对信息系统产生的负面影响,在检测到服务失效等行为时,除了采用大数表决、门限秘密
模体识别是生物信息学的重要研究领域。它通过寻找不同序列间的相似片段来归结出这些序列片段中所蕴涵的特征模体,从而揭示生物序列数据中所蕴涵的生物学意义。最近的生物实验
考试作为教学中一个非常重要的环节,现代教育对考试形式、考试效果、考试统计、考试的即时性、学习效果的评价等要求越来越高。如何让考试适应现代教育的特点已经成为了刻不容
随着计算机网络技术的飞速发展及人民生活水平的不断提高,各种网络应用在人们的日常生活及工作中也在不断的推广和普及。管理信息化作为提高管理水平的有效手段,正在各个行业中
分布式信息处理技术、无线局域网技术和以GPRS/3G为代表的无线上网技术等通信技术的迅速发展和日趋成熟推动了无线网络的快速发展。无线网络由于在众多领域的潜在应用得到了
电力变压器是电力系统中最重要的电气设备之一,它的安全以及稳定的运行对供电系统的可靠性起着决定性的作用。变压器局部放电在线监测与模式识别通过对局部放电过程中局部放电特征参量的分析能提前发现异常征兆,有效防止高压电气设备事故的发生。高压电气设备局部放电的在线监测包括局放信号的测量、外界干扰的抑制、谱图分析、特征提取、识别分类等几个主要组成部分。在深入研究变压器局部放电在线监测及模式识别技术的基础上,本
高动态范围图像的光影和颜色信息非常丰富,其动态范围远远超出目前主流显示设备显示的动态范围。对这种图像动态范围的压缩成为高动态范围图像领域的一项重要研究课题。本文在