信息集成系统中面向领域的Web信息抽取研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:peiyingbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上信息爆炸,如何准确、快速地检索出所需的信息以及更有效的利用这些信息,成为亟待解决的问题。在信息集成系统IIS(Information Integration System)中,如何整合各种异质的Web数据源并对上层应用提供统一的接口,为系统提供了最广泛、最庞大和实时的数据,是Web信息抽取系统必须解决的问题。本文研究的重点包括Web信息抽取规则和抽取系统框架两部分,提出并实现了面向领域的信息抽取框架,对Web页面自适应地采用DOM和NLP的方法进行抽取。Wrapper的核心是抽取规则,即源映射目标模式的描述。本文提出的基于DOM映射的信息抽取方法,采用标准的XML技术操纵Web页面,通过归纳学习获取抽取规则,执行规则解释引擎获取抽取结果。对于非数据导向型的Web页面,引入NLP领域相关理论,结合Web页面标签的特点,将数据源转化为分词/分类处理,采用匹配触发的模式,在触发事件中计算语义距离来确定所需抽取的信息项。基于NLP的抽取方法弥补DOM映射方法的不足。在系统中对数据源进行预处理,利用信息熵检测并提取粗糙信息块。底层采用领域本体文件描述领域信息,映射于上层的抽取基本决策信息,以便于领域的切换。抽取结果存放于数据库中,并提供抽取的本体库,以供信息集成系统中其它模块使用。通过领域内的Web页面抽取试验,抽取结果验证了抽取算法和系统框架的有效性和可用性,具有可扩展研究和商业应用前景。
其他文献
近年来无线传感器网络作为一种新兴技术,被大量应用于不同的场景中,如:汽车电子、军事、工业控制、医疗卫生、环境监测、智能家居等领域。而传感器更在无人值守或恶劣环境下的
经典粗糙集模型分类要求严格按等价关系进行,不存在某种程度上的包含关系,在实际应用中,缺乏对噪声数据的适应能力。为了克服这个缺点,W.ziarko提出一种变精度的粗糙集模型,
综合船桥系统是将舰船上的导航、操纵控制和雷达避碰等设备有机地结合起来,实现舰船航行的自动化。如何集成这些异构因素一直没有一种很好解决方案,采用多功能显控台技术是目
生产调度问题属于组合优化问题。如何解决生产中的动态生产调度问题,以便重新快速、高效地安排生产作业计划、进行生产作业调度是调度研究的首要问题,一直是国内外企业界和学术界研究的热点。随着市场经济的发展,市场竞争日趋激烈,多工序、小批量的生产任务成了生产厂家抢占市场的重点,这样以来,就要求厂家能够合理安排工序,合理利用资源,减少工期,降低生产成本。将优化方法的理论研究引入到车间生产调度领域中,改进算法性
随着数据库技术的发展和网络的普及,大量的数据被存放在异构数据库中,不利于数据的共享;而越来越多的信息系统需要共享异构数据库中的数据。因此,异构数据库数据集成具有重要
尺寸标注是工程图纸的重要组成部分,没有尺寸标注的图纸将毫无价值。尺寸标注的工作量占整个工程图纸工作量的40%以上,所以工程图出图后如何正确、快速的标注出尺寸既具有实用价
非真实感图形渲染能够反映三维形体的几何要素和设计风格,渲染效果具有特殊的艺术性。水墨渲染属于非真实感图形渲染的一个研究分支。以三维数据作为渲染的数据源是非真实感渲
自从因特网诞生至今,网络规模呈爆炸性增长,网络结构也呈现复杂多变的局面。传统的依靠网管手工维护网络形式来进行网络管理已经变得非常困难,为了解决网络的这种变化带来的问题
变更控制作为软件项目管理中不可缺少的一部分,对软件过程的执行起着决定性的作用,不合理或失控的变更会严重阻碍组织完成既定的软件目标,甚至会直接导致软件项目的失败。完
随着图形学技术的发展以及计算机运算能力的提升,真实感渲染技术在影视动漫、视频游戏、模拟仿真等领域的应用越来越广泛。具有高度真实感的材质在整个渲染过程中具有重要作