论文部分内容阅读
在信息时代,互联网发挥着越来越重要的作用,成为日常生活中必不可少的一部分。互联网是信息发布,共享和传播的重要平台。但是网络上的信息资源存在着海量,动态,无序,优劣混杂,缺乏统一组织与控制等特点这给人们的查找和获取信息带来的很大的不便。如何从数据海洋中准确快速的获取用户所需要的信息是目前的一大难题,因此从互联网这个海量信息平台获取信息并且对信息分类成为当下研究的热点。如今发展自媒体成为互联网行业的新时尚,自媒体平台也就成为人们从互联网平台获取信息的重要渠道。本文提出使用网络爬虫技术对搜狐新闻自媒体平台完成收集平台内的信息内容,之后运用信息抽取和信息检索等技术手段,准确的帮助用户定位所需要的信息。本文首先从研究背景与意义,国内外的研究现状和发展趋势等几个方面做了介绍。结合现实需求选用开源爬虫框架Heritrix并对该爬虫框架进行拓展来完成对搜狐新闻自媒体平台进行信息采集,选用Htmlparser对嵌套在爬虫采集下来的网页标签中的信息进行抽取并把抽取出来的信息保存在本地数据库系统中,最后基于Lucene对数据库中的数据索引及SSH2经典Web框架实现信息检索,以网页界面的形式呈现便于用户的浏览和检索。