论文部分内容阅读
目前网络上存在很多各种类型的情报学研究生教育资源:各高校研究生网站、高校图书馆网站、科研院所网站、研究生论坛、情报学专家和学者的个人网页或博客等等。面对大量的情报学研究生教育资源,用户很难定位自己所需要的信息。情报学研究生教育垂直搜索引擎能整合这些繁杂、散乱无序的网络资源。垂直搜索引擎专注具体深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,对于领域外的信息不收录,情报学研究生教育垂直搜索是针对通用搜索引擎信息量大、查询不准确等问题提出来的,其特点就是“专”“精”“深”且具有行业色彩,它是与通用搜索引擎截然不同的引擎类型。传统搜索引擎的检索返回结果太多,不知道从哪开始浏览,查准率低,垂直搜索虽面向主题排除了很多闲杂信息,但为了更好的使用户定位自己所需要的信息,对搜索结果进行聚类是非常重要的。情报学研究生教育涉及范围广资源种类多,例如培养机构包括高校教学院系、科研院所、高校图书馆等,情报学又是图书馆和文献学、计算机和通讯科学、管理和系统科学等领域的交叉产物,导致培养内容和方式丰富,所以用户面对搜索结果将无从下手,在搜索引擎中应用聚类技术,能使经过处理后的搜索结果以一种超链接的层次类目方式提交给用户,内容相似的搜索结果被划分为一个类目,这样,搜索结果就被有效地组织起来,用户就可以快速地了解搜索结果的整体分布情况,并快速定位自已需要的结果。本文就面向情报学研究生教育领域的垂直搜索引擎提出了构建策略,实现了此系统的五大模块:爬虫模块、网页信息分析处理模块、建立索引模块、用户检索接口模块、聚类模块。并对垂直索引的主题过滤、面向情报学研究生教育领域的专业分词、聚类模块的实现等作了大量实验。本文分为七章,文第一章介绍,垂直搜索引擎的研究意义和背景,提出了面向此领域的垂直搜索引擎的技术结构;第二章详细论述了垂直搜索引擎与通用搜索引擎的不同;第三章采用文献计量学的关键词分析法,对情报学研究生教育相关学术论文进行关键词分析,统计出情报学研究培养领域的高频词和热点词,更新分词词典,为情报学研究生教育领域的分词词典提供了专业分词;第四章研究了我国情报学核心网站基于关键词的搜索引擎优化的统计,分析了我国情报学核心网站的结构特点,有利于选取和合适的网站进行垂直搜索引擎的构建;第五章提出了构建此领域垂直搜索引擎的五大模块;第六章具体实现了垂直搜索引擎的构建,并实现了聚类显示;第七章作出了总结和展望。