基于网格技术的主题爬虫算法优化的研究与实现

被引量 : 0次 | 上传用户:zzcko22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网格技术是近年来得到广泛应用的技术,它解决了资源的真正共享,使各结点大量资源得到统一支配和使用,信息网格是在计算网格的基础之上,利用数据挖掘、信息融合和搜索引擎等技术而构建的,便于网格资源的搜集与共享,目标是创建一种构建在OS和Web之上的基于Internet的新一代信息平台,在这个平台上,信息的处理是分布的、协作和智能化的。主题爬虫是根据目标主题,以智能化的方式从Web上收集主题相关的页面集,然后采用机器学习或信息检索的方法对收集到的信息进行智能处理和分析,最后以方便、有效的检索方式满足用户的信息检索需求。本文阐述了网格和主题爬虫的基本概念和国内外的发展现状,说明了研究基于网格技术的主题爬虫算法的意义。详细论述了网格技术以及网格的体系结构,同时阐述了Globus的积木式体系结构、OGSA体系结构和基于Web Services的OGSA架构,进而介绍了开放式网格服务的基础结构。重点分析了主题爬虫的概念、体系结构以及存在的主要问题,提出一种主题爬虫算法——ZTSpider算法,通过对超文本分类器和超链接评价器的研究,改进了现有主题爬虫算法在线学习能力差的问题,同时应用反馈机制,优化了网页父子结点之间的信息传递,增加爬行收获率。设计并实现了主题爬虫ZTSpider模拟系统,改进了现有的主题爬虫的体系结构,该系统应用JAVA语言开发,具有跨平台、高可扩展等特性,实现了Web信息的智能化收集,通过该爬虫算法的收获率,验证了ZTSpider算法的有效性。设计并实现了基于服务网格的分布式主题爬虫系统,应用SOAP、WSDL、UDDI完成了描述服务,定义消息服务和端口类型,在Globus Toolkit中完成了主题爬虫ZTSpider的分布、协作和智能化工作。
其他文献
学生管理工作是高校教育教学工作的重要组成部分。近年来,随着我国社会改革和高等教育改革的进一步深化,大学生的学习和生活环境发生了新的变化,高校学生管理工作也面临新的挑战
炳灵水电站混凝土工程体形复杂、施工强度大、质量要求高,只有高质量的各类施工模板才能满足施工需要。水电站尾水流道渐变段模板作为异形模板,过去大部分建筑公司采用木模板
现代工业发展势头迅猛,电力能源对于现代生产和生活都具有极其重要的作用。随着广大用户对电力需求的增加,电力系统必须要借助先进的技术实现自动化管理,通过电网运行的实际
根据n(n≥3)个点的地方独立坐标及对应的WGS-84坐标,结合平面坐标转换模型、布尔莎模型和三维坐标差转换模型,完成了地方独立坐标系与WGS-84坐标系转换参数的计算。基于该转
假设信号控制交叉口上车辆的到达率和饱和流率均为服从泊松分布的随机变量,以某一相位红灯初始时刻的排队状态为研究对象,运用休假随机服务系统理论,建立了非饱和状态下的信
本文主要从成语的意义与功能方面探讨汉语成语的英译。为了最终能达到功能对等 ,我们的研究重点应以内容为重。由于汉语成语大都具有文化特殊性 ,在翻译过程中 ,我们应具体情
随着手机零售市场的进一步发展,意味着竞争愈加剧烈。这种激烈的竞争迫使现在的手机零售店要寻求未来的发展出路,尽快找准自己的市场定位,以便制订适合自身发展的营销策略,确保自
企业竞争力概念的界定是企业竞争力研究的重点之一。企业竞争力与企业竞争优势这两个概念的内涵是否一致,是否可以相互替代,目前理论界有两种完全相反的观点。文章在梳理了两
基于现场得到的油井套管大量统计数据,应用灰色理论中的GM(1,1)模型,对油井套管寿命进行预测。实例计算与对比表明,灰色GM(1,1)模型对油井套管的寿命预测具有较好的适用性。
在工业建筑建设中,施工管理和进度控制具有重要的作用。现阶段,由于受到多方面的影响,工业建筑施工管理与进度控制存在着一些问题与不足,主要表现在施工安全、材料管理、人员