基于本体的DeepWeb自动标注研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:mbc3204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Deep Web中数据的增多,深度网络所包含数据的检索变得尤其的重要。事实上大部分信息对传统的搜索引擎是不可见的。为了使搜索引擎对于深度网络的查询效率更高,通过数据标注技术把结果页面中的信息进行标注并提交给搜索引擎以便于后面的检索和抽取。本文的标注方法因为使用到了本体的概念所以对标注信息的一致性有了很大的提高。首先,通过网页的视觉特征对页面中的说明信息进行抽取。信息抽取过程是根据数据信息和相应的说明信息的空间关系进行的,如果这两个信息在一条直线上并且在这两个信息之间没有其他的信息,本文的方法就认为这两个信息是匹配的。既这个说明信息是用来说明这个数据的。在完成了抽取的过程之后,用这个说明信息来标注对应的数据信息。但是有些时候一些结果页面中包含的数据量是很少的,如果单独通过结果页面中的信息来标注是不行的。就要借助查询接口的信息来标注结果页面中的数据。在这个过程中为了保证数据的一致性本文使用整合接口中的接口模式来标注相应的数据信息。其次,再把上面使用的标注信息进行归类。在归类的过程中主要使用的是数据信息在页面中的表现形式和通过这两个信息邻近信息的相似程度来判断这两个信息的相似程度。把标注信息分类以后,把每类标注信息用一个统一的名字加以说明。这样可以很好的减少标注信息的数据不一致性,提高标注的效率和准确程度。最后,再把每类标注信息进行识别,可以分为数据类型的和文本类型的。这样的分类过程可以使标注信息和本体词组的相似度计算更加的方便。再用逐词比较的方式来计算本体词组和标注信息的相似度,并用相应的本体词组替换对应的标注信息来标注数据。
其他文献
随着互联网的飞速发展,由于其开放性,在方便人们获取信息的同时,各种不良信息也随之泛滥,特别是反动、色情、暴力等有害信息极大地危害着社会的稳定和人们的身心健康,网络内
离散制造企业中,优化生产调度是缩短产品生产周期、提高企业按期交货能力的重要举措。为此,本文将从生产控制模型、车间作业调度算法及研制车间调度管理软件三个方面来对这个
渠道运行控制系统是一个大型和复杂的控制系统。任何一项供水工程,必须满足的基本要求之一是适时与适量的供水。它的目的在于提高渠道的调度水平和输水效率,避免供水的不足与
工作流技术是进入90 年代以后计算机应用领域的一个新的研究热点。 对工作流技术进行深入的研究对于提高我国企业的信息化程度、运行效率以及竞争能力都有着重要的意义。我们