基于网络爬虫的信息采集技术研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:masonma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,互联网发挥着越来越重要的作用,成为日常生活中必不可少的一部分。互联网是信息发布,共享和传播的重要平台。但是网络上的信息资源存在着海量,动态,无序,优劣混杂,缺乏统一组织与控制等特点这给人们的查找和获取信息带来的很大的不便。如何从数据海洋中准确快速的获取用户所需要的信息是目前的一大难题,因此从互联网这个海量信息平台获取信息并且对信息分类成为当下研究的热点。如今发展自媒体成为互联网行业的新时尚,自媒体平台也就成为人们从互联网平台获取信息的重要渠道。本文提出使用网络爬虫技术对搜狐新闻自媒体平台完成收集平台内的信息内容,之后运用信息抽取和信息检索等技术手段,准确的帮助用户定位所需要的信息。本文首先从研究背景与意义,国内外的研究现状和发展趋势等几个方面做了介绍。结合现实需求选用开源爬虫框架Heritrix并对该爬虫框架进行拓展来完成对搜狐新闻自媒体平台进行信息采集,选用Htmlparser对嵌套在爬虫采集下来的网页标签中的信息进行抽取并把抽取出来的信息保存在本地数据库系统中,最后基于Lucene对数据库中的数据索引及SSH2经典Web框架实现信息检索,以网页界面的形式呈现便于用户的浏览和检索。
其他文献
我国是巴西重要的投资伙伴国。我国对巴西投资主要集中在能源、矿产品、钢铁、汽车等产业。我国对巴西投资属于市场开拓和出口寻求型投资。为进一步促进我国企业对巴投资,我
近年来,关于城市复合系统的可持续发展研究一直以来是人文地理学研究的重要领域.但基于能值理论对城市可持续发展能力的定量研究多集中在某一年度或某不连续的几个年度,缺乏对某
设备点捡制是一种先进的、科学的管理体制。按照"定法定规、定标定准、定点定时、定人定量"的要求对设备实施的全面管理。一些企业已开始摸索着尝试推行该设备管理方
<正>《中国0至5岁儿童病因不明急性发热诊断和处理若干问题循证指南》由四川大学华西第二医院儿科和《中国循证儿科杂志》编辑部组成的指南工作组历时近3年完成,现对其相关词
调查分析江苏省兴化市钓鱼镇、高邮市周巷镇和东海县平明镇的290个农户家庭因素与水稻新技术采用情况。结果表明:户主年龄与技术采用率呈负相关,户主受教育年限与技术采用率
为利用负温度系数(NTC)热敏电阻实现定区间高温检测,提出一种基于期望相对温度跟踪控制策略的温度检测系统参数优化调整方法.利用NTC热敏电阻标称值,针对目标温度区间进行温
以中粳广陵香粳为供试材料,通过不同密度、施肥处理形成不同群体,研究水稻中后期稻米品质与群体质量的关系.结果表明:不同处理群体问的产量和品质均有一定的差异,低密度、施