论文部分内容阅读
随着互联网技术的飞速发展,WEB上的信息量快速增长,如何方便有效利用这些WEB信息吸引了越来越多人的关注。传统数据仓库和中间件的信息集成方案在WEB数据源集成中具有极大的挑战。中间件方式集成WEB数据源,在查询条件提交后再到网页上去查找信息,这样不仅效率低下,而且查询的结果也难以预测。数据仓库法对于信息更新快的WEB站点来说,数据的更新维护是一项恼人的工作,而且不能直接利用已有关系数据库中的数据。本文针对这些问题,结合中间件方法和物化法提出了一种信息集成体系结构(Materialized Mediator Information Integration Framework),简称MMIIF,该体系结构有效的解决了传统关系数据库和WEB数据源的集成问题。MMIIF数据查询的过程采用中间件方式,实现数据访问的透明性,底层数据源的自治性;为了解决WEB数据源访问的效率问题,MMIIF采用物化法先将WEB数据抽取出来存放在本地,供用户访问,系统集成管理人员能够根据实际应用的需要实时更新本地数据。分析了该体系结构中模式集成过程和查询处理过程,详细设计了关系数据库包装器和WEB数据源包装器。由于MMIIF在很大程度上依赖于WEB数据源包装器中数据抽取器实现物化功能,本文研究了当前WEB数据抽取技术:目前层出不穷的WEB数据抽取器都各有侧重,全自动方式的抽取器虽然人工工作少,能够实现从大量网站中抽取各种数据,但往往会抽取大量无用信息,得不到用户感兴趣的信息;人工方式的抽取器虽然方式简单但是计算数据抽取规则复杂。本文在分析了大量网站后提出一种针对相似网页的半自动化WEB数据抽取器。该抽取器采用同一站点URL结构相似性判断和主题匹配的方法搜索相似网页;利用XSLT作为数据抽取规则的描述语言,采用GUI界面实现与用户交互,系统自动生成抽取规则,实现最终抽取的数据是结构清晰语义明确且用户感兴趣的数据。最后采用典型的电子商务网站和门户网站作为实验WEB数据源,采用数据抽取评价指标查全率和查准率来评价该抽取器的性能。实验证明该抽取器能够较好实现MMIIF的物化功能,将WEB数据查询转换为本地数据库的查询。