分布式主题网络爬虫研究与设计

来源 :电子科技大学 | 被引量 : 2次 | 上传用户：cxwycn

【摘要】

：

互联网时代,如何从海量数据中收集信息是一个关键问题。目前,使用最频繁的信息检索与收集工具是基于通用爬虫的搜索引擎。但通用爬虫获取到的信息价值密度低。对此,部分学者

【作者】

：

单文远

【出处】

：

电子科技大学

【发表日期】

：

2020年01期

【关键词】

：

主题爬虫相似度词向量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网时代,如何从海量数据中收集信息是一个关键问题。目前,使用最频繁的信息检索与收集工具是基于通用爬虫的搜索引擎。但通用爬虫获取到的信息价值密度低。对此,部分学者提出了主题爬虫。主题爬虫是一种会按照爬行策略对页面内容与爬行方向进行分析与筛选的爬虫。与通用爬虫相比,主题爬虫尽量避免与主题不相关页面的抓取,存储的页面数量更少,所获取的信息价值密度更高,是一种有效的信息收集工具。主题爬虫的研究与应用始于20世纪90年代,迄今为止,研究成果主要包括基于内容的爬行策略与基于链接结构的爬行策略;前者以Fish Search、Shark Search为代表,后者以Page Rank、HITS为代表。此外,一些学者提出了基于叙词表或本体的语义爬虫,让主题爬虫在特定领域具备了语义分析的能力。在生产应用中,则形成了以WebMagic、WebCollector、WebCollector-Hadoop为代表的爬虫技术。语义爬虫具备了一定的同义词、近义词识别能力,是对向量空间模型的一种有效改进。但问题在于,这种识别能力受到叙词表或本体的限制,有一定的局限性。如何让主题爬虫具备泛化的同义词、近义词识别能力,在相似度计算过程中更好的对同义词、近义词做评估是一个研究热点。另外,如何通过有效的架构设计降低爬虫任务的耗时是一个关键问题。为了改善主题爬虫的同义词、近义词识别能力。本文提出了一种基于分布式词向量的相似度计算方式。本文以word2vec作为生成的词向量模型,模型通过维基百科的语料库进行训练。此种方法的核心在于,用主题与页面的词向量集合而非二者的文档向量作为相似度计算的基准,把二者的每一对词语的相似度都纳入到二者整体相似度的考量中去,让主题爬虫具备泛化的同义词、近义词识别能力,更全面地评价页面与主题之间的相似度;有效地提升主题爬虫的爬准率与爬全率。为验证这种方法的优劣,本文选取了多个目标网站与多组主题词集合,在等同条件下检测了向量空间模型与本文提出的相似度计算方式。此外,为提升主题爬虫的运行效率,本文结合微服务的理念,设计了一种分布式爬虫架构。为验证该架构设计的有效性,在等同条件下,以在生产环境中已经得到广泛应用的WebMagic、WebCollector、WebCollector-Hadoop作为参照进行了对比实验。经过实验,与向量空间模型相比,本文提出的相似度计算方式提升了主题爬虫的爬准率与爬全率。在与WebMagic、WebCollector、WebCollector-Hadoop的对比中,本文设计的爬虫在任务条件相同的情形下完成爬虫任务的时间更短,表现出更高的运作效率。此外,本文通过Java等编程语言开发了一个简单易用的分布式主题网络爬虫系统。总体而言,本文的对主题爬虫的设计与改进是有效的。但本文设计的主题爬虫也存在一些待完善的点。首先,实验中用到的种子URL都是人工选择的;另外,页面中的图片、视频等信息并没有得到充分利用。如何自动化、智能化的选择种子URL,并有效的分析页面中的非文本信息是主题爬虫未来的研究点。

其他文献

我国遗产继承中对债权人利益的法律保护研究

遗产继承中对债权人利益的法律保护问题是继承法律制度中的重要问题之一。从广义上来说,遗产继承制度中对债权人利益的保护既包括对继承人的债权人利益的保护,还包括对被继承人的债权人利益的保护;从狭义上来说,仅包含对被继承人的债权人利益的保护。1985年,我国的《继承法》和《最高法关于贯彻执行<继承法>若干问题的意见》出台时,民事主体之间的经济交往比较少,继承相关法律制度更偏重于解决被继承人与继

学位

遗产继承债权人利益限定继承遗产管理制度

论科技档案的收集

档案的收集工作是档案管理工作中最重要的一项工作,要从提高认识,增强档案意识,完善档案管理制度,充分发挥职能作用,加强档案部门的自身建设;提高档案人员的业务素质,注重收

期刊

档案收集科技

雷达吸波涂层的研究进展

隐身技术是当今各国重点发展的国防高科技技术,其中雷达吸渡涂层RAC(Radar Absorbing Coating)是实现隐身技术的重要组成部分.论述了雷达吸波涂层吸波剂和胶粘剂的特点及应用

期刊

雷达吸波隐身技术国防应用现状涂层胶粘剂组成部分stealth technologyradar absorbing coatingwave-abs

论非法吸收公众存款罪的适用困境与完善建议

非法吸收公众存款罪自设立之初,旨在维护我国金融秩序,由于法律在制定上具有滞后性,从本罪的规定上来看,似乎可以规避这一特点,但实际上却为其成为非法集资犯罪的口袋罪提供

学位

非法吸收公众存款社会治理效果司法适用困境完善建议

大块非晶态合金的最新研究动态

概括了大块非晶态合金的发展历史,并从结构条件、热力学条件、动力学条件等方面详细阐述了大块非晶态合金的形成机制,总结了其性能特征、应用现状及最新研究动态,同时从应用

期刊

大块非晶态合金形成机制热力学耐磨性耐蚀性原子随机配位密度bulk amorphous alloys forming mechanism prop

高抗白叶枯病优质高产杂交籼稻新组合——Ⅱ优084

"Ⅱ优084"是江苏丘陵地区镇江农业科学研究所用"Ⅱ-32A"与"镇恢084"配置而成的突破性杂交籼稻新组合.该组合2001年4月通过江苏省农作物品种审定委员会审定.Ⅱ优084经多年鉴定

期刊

籼稻Ⅱ优084杂交组合产量表现特征特性栽培要点

基于GeSbTe膜的探针存储机制的研究

针对基于原子力显微镜（AFM）的探针相变存储研究中存储介质和存储方法2个关键问题进行了尝试性的研究。比较了用直流磁控溅射部分不同工艺参数所制备的GeSb2Te4薄膜的表面性能，同

期刊

AFM信息存储GeSbTe膜AFM storage GeSbTe film

高产大穗玉米新品种—苏玉15

"苏玉15"系江苏沿江地区农业科学研究所科技人员1997年用自选系"568G"作母本、外引系"340"作父本育成的中熟偏迟玉米单交种.该品种2001年5月通过江苏省农作物品种审定委员会

期刊

玉米苏玉15品种大穗品种产量表现品种特性栽培要点

分布式主题网络爬虫研究与设计

其他学术论文