论文部分内容阅读
在Internet高速发展的时代中,人们通过通用搜索引擎的帮助从浩瀚的信息海洋中寻找自己需要的信息,但通用搜索引擎因为本身涵盖的信息过于广泛而导致了人们往往不能迅速准确的搜索到需要的信息,针对这种情况主题搜索引擎诞生了。主题搜索引擎的专业性和抗干扰性使得检索准确率大大提升。随着网络信息多样化发展,常见的主题搜索有:科技文档搜索、电影资料搜索、数码时尚搜索、书籍期刊搜索、新闻搜索等。但没有一种主题搜索引擎技术能适用于所有的主题领域,有些主题领域具有一些与上述主题领域不同的特点,例如药物商品搜索、职位信息搜索等,这类主题领域的信息同时具有文档结构固定、多词同义现象严重、查询词在文档中出现少等特点。对于这类特殊主题领域,普通检索技术往往不能获得良好的检索效果。本文主要工作即针对这类特殊主题搜索引擎的排序、检索与性能优化算法展开深入研究,主要工作有:(1)提出了一种能更好的适应特殊主题领域的SPF-PR(Specifically Focused PageRank)网页排序算法。PageRank算法是基于超链接分析技术的页面排序算法,随着网页链接结构的复杂程度不断增加,PageRank算法为了适应具体的不同应用需求还需要不断改进和完善。本文在传统PagerRank算法的基础上提出了SPF-PR算法。SPF-PR算法采用了超链接锚文本与领域向量之间的相似度来控制传统PageRank算法的主题漂移现象,比传统PageRank算法具有更高的检索性能。(2)针对特殊主题领域的文档特点设计了SEB-VSM(Seed Extension Based VSM)检索模型。目前多数搜索引擎采用的VSM (Vector Space Model)检索模型并不适用于某些特殊领域的检索,本文在VSM检索模型的基础上设计了SEB-VSM检索模型来提高特殊主题搜索的检索性能,解决了VSM检索模型不适用于特殊主题领域检索的问题。(3)设计了一种基于Lingo聚类算法的SEB-VSM检索模型优化方案,包括特征降维与相似度优化。基于Lingo聚类的特征降维技术降低了文档向量的维度,提高了相似度计算的执行效率,降低噪音数据对相似度计算的影响;基于Lingo聚类算法的相似度优化,减小相似度计算的误差。经实验证明基于Lingo聚类的特征降维与相似度优化能有效的提高SEB-VSM检索模型的性能。最后应用上述改进与优化算法,设计了一个面向特殊主题的搜索引擎系统,采集了大量网络数据进行测试,实验证明上述改进能在本文研究的特殊主题领域中有效的提高检索性能,在实际应用中具有较高的实用价值。