基于半自动化WEB数据抽取器的信息集成研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:xufei777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,WEB上的信息量快速增长,如何方便有效利用这些WEB信息吸引了越来越多人的关注。传统数据仓库和中间件的信息集成方案在WEB数据源集成中具有极大的挑战。中间件方式集成WEB数据源,在查询条件提交后再到网页上去查找信息,这样不仅效率低下,而且查询的结果也难以预测。数据仓库法对于信息更新快的WEB站点来说,数据的更新维护是一项恼人的工作,而且不能直接利用已有关系数据库中的数据。本文针对这些问题,结合中间件方法和物化法提出了一种信息集成体系结构(Materialized Mediator Information Integration Framework),简称MMIIF,该体系结构有效的解决了传统关系数据库和WEB数据源的集成问题。MMIIF数据查询的过程采用中间件方式,实现数据访问的透明性,底层数据源的自治性;为了解决WEB数据源访问的效率问题,MMIIF采用物化法先将WEB数据抽取出来存放在本地,供用户访问,系统集成管理人员能够根据实际应用的需要实时更新本地数据。分析了该体系结构中模式集成过程和查询处理过程,详细设计了关系数据库包装器和WEB数据源包装器。由于MMIIF在很大程度上依赖于WEB数据源包装器中数据抽取器实现物化功能,本文研究了当前WEB数据抽取技术:目前层出不穷的WEB数据抽取器都各有侧重,全自动方式的抽取器虽然人工工作少,能够实现从大量网站中抽取各种数据,但往往会抽取大量无用信息,得不到用户感兴趣的信息;人工方式的抽取器虽然方式简单但是计算数据抽取规则复杂。本文在分析了大量网站后提出一种针对相似网页的半自动化WEB数据抽取器。该抽取器采用同一站点URL结构相似性判断和主题匹配的方法搜索相似网页;利用XSLT作为数据抽取规则的描述语言,采用GUI界面实现与用户交互,系统自动生成抽取规则,实现最终抽取的数据是结构清晰语义明确且用户感兴趣的数据。最后采用典型的电子商务网站和门户网站作为实验WEB数据源,采用数据抽取评价指标查全率和查准率来评价该抽取器的性能。实验证明该抽取器能够较好实现MMIIF的物化功能,将WEB数据查询转换为本地数据库的查询。
其他文献
随着新一代测序技术的发展,人们发现在真核生物基因组中并不是所有的RNA都能编码蛋白质,其中大部分基因转录生成的RNA都不能编码蛋白质,这些RNA称为非编码RNA。其中一种新兴的非
随着软件规模的不断扩大和复杂程度的不断提高,软件产品面临着大量的并发用户和业务运算,因此软件的性能越来越受到业内的重视。在这种情况下,为了验证系统性能而执行的压力
随着信息化建设的飞速发展,网络已无处不在,这种技术给人们带来了很多方便,但同时也存在一些安全的问题。为了解决这些问题,人们提出了很多方法,其中入侵检测技术是解决安全问题的
系统进化分析是生物信息学中的重要研究领域,它的主要研究手段是从一组同源的DNA或蛋白质序列出发,计算各个序列之间的进化距离,进而构建反映物种进化关系的进化树。构建进化树
防火墙(Firewall)与入侵检测系统(IDS)作为两种网络安全防护技术应用越来越广泛。防火墙通常被部署在网络的边界用于不同网络间的隔离,通过访问控制策略来允许或是拒绝数据包
随着互联网技术的迅猛发展,各种服务商在互联网中开启的流量入口也越来越多,形式各不相同,硬件上,用户可以通过PC、智能平板、手机等使用相关服务,在软件上也包含了如社交网
面向对象技术的发展,出现了众多的面向对象的建模语言,其中统一建模语言UML作为一种定义良好、功能强大的图形化建模语言得到广泛的运用。UML溶入了软件工程领域的新思想和新
随着社会经济的快速发展和人民生活水平的不断提高,一方面,家用电器的种类越来越多,普及率也在逐年增加;另一方面,各类家用电器淘汰废弃的速度在不断加快,形成了大量的废弃物垃圾,这不仅使社会负担加大,浪费了大量资源和能源,而且也使环境遭受了严重的破坏和影响,更使人们的生活质量下降。因此,研究废旧家电产品的回收再利用技术和处理过程,建立废旧家电回收处理流程模型,合理规划废旧家用电器的拆卸建模过程以及拆卸序
射频识别(RFID)技术是近年来兴起的一种非接触式的自动识别技术。与目前采用的条形码技术相比,RFID技术具有读取距离远、穿透能力强、效率高、信息量大等优势,并且在各个领域
人脸识别技术是基于生物特征识别技术的一个重要分支,在辨别身份和传递感情方面起着重要的作用。由于人脸识别技术在视频监控、访问控制、信用卡验证、多媒体数据库检索以及