基于BP网络的高校主题爬虫的设计与实现

来源 :东北师范大学 | 被引量 : 4次 | 上传用户:diyidixie00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web含有大量丰富有用的资源,搜索引擎已成为人们检索这类资源的重要工具。但是,随着信息多元化的增长,传统的通用搜索引擎返回结果过多,主题相关度差。因此,很难满足人们对个性化服务日益增长的需要。这也为通用搜索引擎提出了空前的挑战。基于此,面向特定领域、适应于特定人群的主题搜索引擎应运而生。主题爬虫是主题搜索引擎的基础与核心。它是建立在普通爬虫基础之上的,是普通爬虫在功能上的扩展。本文主要研究主题爬虫的相关技术,建立一个高校类的主题爬虫。旨在挖掘出更多的高校领域相关资源。BP人工神经网络是利用非线性可微分函数进行权值训练的多层网络。它包含了神经网络理论中最为精华的部分。由于其结构简单,可塑性强,所以,在函数逼近、模式识别、信息分类及数据压缩等领域都得到了广泛的应用。特别地,由于它的数学意义明确,学习算法步骤分明,使得应用背景更加广泛。本文主要描述了高校主题爬虫的设计与实现的全过程。如何对网页进行主题相关性的判断是主题爬虫设计中的重要内容。这里不同于目前多数采用的向量空间模型进行网页主题相关度判断的方法,而是将解决非线性问题具有较好效果的BP技术用于高校主题爬虫中,进行主题相关度的预测,指导爬虫采集高校相关信息。它的分类比线性划分更精确、更合理,网络容错性好。实验结果表明,本文设计的高校主题爬虫取得了良好的效果,具有较高的实用价值。而且比采用向量空间模型进行主题相关度判断的方法具有更高的准确率。
其他文献
植物叶片识别对于相关植物知识的普及和植物学相关学科的发展有一定的促进作用,对于研究植物的系统的进化具有很重要的意义。近年来,国内外在植物叶片识别方面的研究取得了很
自动抄表系统利用现代通信和计算机技术实现对远程流量计量器的实时监控与数量采集,提高企业的运营效率,方便用户的使用。自动抄表系统中数据收集转发器保障外部设备与远程流
电子商务的大繁荣使得数以万计的用户开始通过网络购买各种产品、服务,并在线发表评论信息。许多消费者在购买某种产品或服务的时候,通常会先参考之前购买者的评论信息,获得直观
半监督学习是近年来倍受人们关注的新的机器学习方法,本文将李群理论引入到半监督学习领域中,给出了基于李群的半监督学习算法。主要包括以下几方面内容:1.分析了半监督学习
伴随信息技术的发展以及无线通信设备普及,移动学习(M-Learning)应运而生。移动学习是一种新型的学习方式,它充分利用无线技术和移动计算机设备来辅助教学,为学生通过移动设
学位
自动交换光网络(ASON,Automatic Switched Optical Network)是下一代光网络的发展方向。随着ASON网络规模日益扩大,如果将所有网络设备放在同一路由域内来管理,则单个节点需
调试在程序的开发与维护阶段占据相当大的比重,而定位错误则是调试过程中至关重要的一个步骤。由于手工定位错误往往缺乏导向性,因此需要耗费程序员大量的时间和精力,而且往往效
关联规则挖掘是数据挖掘的一个重要组成部分,频繁集挖掘是关联规则挖掘的关键步骤,它在很大程度上决定了关联规则挖掘的效率。本文分析和研究了两种著名的频集算法Apriori和F
近年来,随着数字化的不断进步,人类社会的数据总量越来越大,这些数据已经成为一种有价值的战略资产,越来越受各国政府的重视。在此背景下,中国工程院于2012年启动了工程科技