论文部分内容阅读
当今社会已经进入了网络信息时代,计算机与网络信息技术的飞速发展使得各个领域的数据和信息急剧增加,并且由于人类的参与使数据与信息系统中的不确定性更加的显著。如何从大量的﹑杂乱无章的﹑强干扰的数据中挖掘潜在的、有利用价值的信息,这给人类的智能信息处理能力提出了前所未有的挑战。在某些专业领域,如房地产、电子商务领域等,传统搜索引擎已经无法满足用户的需求。面对这些挑战,针对特定主题和个性化信息检索的垂直搜索引擎应运而生。基于主题的垂直搜索引擎已经成为当前搜索引擎和Web信息挖掘中的一个研究热点和难点,本论文的研究就是以这一热点和难点技术而展开的。首先,对通用搜索引擎的组成部分作了简单介绍,并细述了其工作原理。进而对垂直搜索引擎的一些关键技术如主题网络爬虫、信息抽取、文本分类、垂直搜索引擎架构等进行了详细的阐述。接着,在垂直搜索引擎技术中,探讨网络爬虫以何种搜索策略访问Web,以提高效率和准确率。考虑到web页面上存在的主题孤岛问题,提出基于主题内容和URL链接地址分析的搜索算法,可以使网络爬虫穿越隧道爬过更多的相关主题页面来解决主题孤岛问题,提高搜索引擎的主题资源覆盖率,同时可以较好的避免主题漂移现象。最后,根据本文提出的方法,设计和实现一个与“高等教育”主题相关的垂直搜索引擎,主要实现的功能主要包括网页的爬取,网页的解析,网页相关度判断,抓取深度控制,日志及结果记录,可视化界面等。