【摘 要】
:
在Internet的飞速发展和普及下,丰富的Web资源构成了一个巨大的全球性信息仓库,网络已经成为人们获取信息的一个重要手段。面对庞大的Web信息,用户如何从繁杂的数据中快速、
论文部分内容阅读
在Internet的飞速发展和普及下,丰富的Web资源构成了一个巨大的全球性信息仓库,网络已经成为人们获取信息的一个重要手段。面对庞大的Web信息,用户如何从繁杂的数据中快速、准确地找到感兴趣的信息变得越来越困难。为此,近来出现了很多自动和半自动的Deep Web数据集成系统,本文设计了Deep Web信息集成系统DWIIS (Deep Web Information Integration System),该系统主要可分为Deep Web查询接口获取、查询接口集成、查询分解、查询结果获取、查询结果整合、查询结果展示几个部分,对互联网络上的Deep Web数据库信息进行信息整合重组,并基于这些信息做增值服务工作。为用户提供了“一站式”的信息查找服务,极大地提高了信息的查找速度和准确性。重复语义标注、复杂的抽取模式生成方法及嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题,本文提出基于结果模式的Deep Web数据抽取机制,首先通过构建与分析样本结果页面的网页数据特征矩阵建立属性集、生成属性值抽取标识,二者共同组成了页面的结果模式,属性集可以较好地支持后续实体识别、结果合并等应用;属性值抽取标识支持同类结果页面的数据抽取。然后根据结果模式对同类结果页面进行数据抽取,便得到带有语义标注的数据集。对于获取的结果数据集,本文还详细阐述了基于典型属性的实体识别方法和基于非典型属性的实体识别方法,实现了DWIIS其中的实体识别子系统。最后通过实验,将本文提出的方法与同类成果进行了详细的对比,基于结果模式的数据抽取方法和实体识别子系统都具有较高的准确率及效率。
其他文献
由于当前嵌入式系统的硬件平台多种多样,相应的软件开发往往是针对特定的平台、特定平台的板级支持包(BSP)以及硬件抽象层(HAL)的,因而开发的软件往往需要进行与平台相关的修
随着计算机性能的提高和控制技术的发展,离散控制系统理论越来越受到人们的重视。控制系统中普遍存在着时滞现象,时滞往往使得系统性能下降。另外,控制系统一般都是在外界扰
基于立体视觉的三维重建是计算机视觉领域的研究热点,在机器人导航、虚拟现实、建筑、工业设计等方面有重要作用。目前大多数三维重建研究工作集中在针对单个物体的三维建模
作为人工智能的重要研究领域,机器人学科半个世纪以来取得了飞速的发展。自主机器人的路径规划问题,如今已成为人工智能领域的前沿课题,引起了各国学者的高度重视。在自主式
无线传感网络(Wireless Sensor Network,WSN)中节点的定位技术是无线传感网络技术的核心技术之一,在很多应用中,位置信息的准确性是节点数据信息实用性的前提。在网络节点成
目前的Web搜索技术是基于关键词的搜索,信息的查全率和精确度仍然不能满足用户的需求,其效果常常不能使人满意。这是由于在Web搜索过程中,缺乏搜索引擎可读的语义信息,因而限
以TCP/IP协议为基础的Internet自从九十年代以来,其网络规模、用户数量以及业务量都呈现爆炸式地增长,新型网络应用也不断涌现,网络参数动态变化。这些使得网络拥塞的状况愈
细分技术是计算机图形学研究的热点方向,其研究成果在多个领域得到应用。体细分作为细分技术的一个分支,主要应用于自由变形。在自由变形时,如果控制网格(体网格)过于稀疏,变
关联规则挖掘是数据挖掘中的一个重要问题,它在商业领域的成功应用,使它成为数据挖掘中最成熟、最主要的研究内容之一。关联规则挖掘分为两步:频繁项集挖掘和利用这些频繁项集产
随着嵌入式系统的深入发展,对开发工具提出了更高的要求。在传统软硬件协同开发模式中,软件和硬件开发相互牵制,硬件干扰引起的异常行为严重影响软件的调试和测试,延误开发进