基于网络爬虫的信息采集技术研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户：masonma

【摘要】

：

在信息时代,互联网发挥着越来越重要的作用,成为日常生活中必不可少的一部分。互联网是信息发布,共享和传播的重要平台。但是网络上的信息资源存在着海量,动态,无序,优劣混杂

【作者】

：

王子豪

【出处】

：

西北师范大学

【发表日期】

：

2004年期

【关键词】

：

Heritrix 信息抽取信息采集 lucene Htmlparser

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在信息时代,互联网发挥着越来越重要的作用,成为日常生活中必不可少的一部分。互联网是信息发布,共享和传播的重要平台。但是网络上的信息资源存在着海量,动态,无序,优劣混杂,缺乏统一组织与控制等特点这给人们的查找和获取信息带来的很大的不便。如何从数据海洋中准确快速的获取用户所需要的信息是目前的一大难题,因此从互联网这个海量信息平台获取信息并且对信息分类成为当下研究的热点。如今发展自媒体成为互联网行业的新时尚,自媒体平台也就成为人们从互联网平台获取信息的重要渠道。本文提出使用网络爬虫技术对搜狐新闻自媒体平台完成收集平台内的信息内容,之后运用信息抽取和信息检索等技术手段,准确的帮助用户定位所需要的信息。本文首先从研究背景与意义,国内外的研究现状和发展趋势等几个方面做了介绍。结合现实需求选用开源爬虫框架Heritrix并对该爬虫框架进行拓展来完成对搜狐新闻自媒体平台进行信息采集,选用Htmlparser对嵌套在爬虫采集下来的网页标签中的信息进行抽取并把抽取出来的信息保存在本地数据库系统中,最后基于Lucene对数据库中的数据索引及SSH2经典Web框架实现信息检索,以网页界面的形式呈现便于用户的浏览和检索。

其他文献

中国企业对巴西直接投资及其风险防范

我国是巴西重要的投资伙伴国。我国对巴西投资主要集中在能源、矿产品、钢铁、汽车等产业。我国对巴西投资属于市场开拓和出口寻求型投资。为进一步促进我国企业对巴投资,我

期刊

中国企业对巴西投资FDI投资风险

基于能值理论的城市生态经济系统可持续发展研究——以山东省威海市为例

近年来，关于城市复合系统的可持续发展研究一直以来是人文地理学研究的重要领域．但基于能值理论对城市可持续发展能力的定量研究多集中在某一年度或某不连续的几个年度，缺乏对某

期刊

威海市能值理论生态经济系统可持续发展

数控设备管理推行“点检制”的意义

设备点捡制是一种先进的、科学的管理体制。按照＆quot;定法定规、定标定准、定点定时、定人定量＆quot;的要求对设备实施的全面管理。一些企业已开始摸索着尝试推行该设备管理方

期刊

数控设备管理点检制

中国0至5岁儿童病因不明急性发热诊断和处理若干问题循证指南:相关词语定义和体温测量部分解读

<正>《中国0至5岁儿童病因不明急性发热诊断和处理若干问题循证指南》由四川大学华西第二医院儿科和《中国循证儿科杂志》编辑部组成的指南工作组历时近3年完成,现对其相关词

期刊

急性发热体温测量循证指南病因不明水银体温计

农户家庭因素对水稻生产新技术采用的影响——基于对江苏省3个水稻生产大县(市)290个农户的调研

调查分析江苏省兴化市钓鱼镇、高邮市周巷镇和东海县平明镇的290个农户家庭因素与水稻新技术采用情况。结果表明:户主年龄与技术采用率呈负相关,户主受教育年限与技术采用率

期刊

农户新技术采用水稻家庭因素rural household adoption of new technology rice rural household

面向高温的NTC温度检测系统设计优化及标定

为利用负温度系数(NTC)热敏电阻实现定区间高温检测,提出一种基于期望相对温度跟踪控制策略的温度检测系统参数优化调整方法.利用NTC热敏电阻标称值,针对目标温度区间进行温

期刊

熔融沉积成型NTC热敏电阻温度测量优化设计温度标定

中粳广陵香粳米质与中后期群体质量关系的研究

以中粳广陵香粳为供试材料,通过不同密度、施肥处理形成不同群体,研究水稻中后期稻米品质与群体质量的关系.结果表明:不同处理群体问的产量和品质均有一定的差异,低密度、施

期刊

中粳广陵香粳米质中后期群体质量关系产量

基于网络爬虫的信息采集技术研究

其他学术论文