论文部分内容阅读
随着Deep Web中数据的增多,深度网络所包含数据的检索变得尤其的重要。事实上大部分信息对传统的搜索引擎是不可见的。为了使搜索引擎对于深度网络的查询效率更高,通过数据标注技术把结果页面中的信息进行标注并提交给搜索引擎以便于后面的检索和抽取。本文的标注方法因为使用到了本体的概念所以对标注信息的一致性有了很大的提高。首先,通过网页的视觉特征对页面中的说明信息进行抽取。信息抽取过程是根据数据信息和相应的说明信息的空间关系进行的,如果这两个信息在一条直线上并且在这两个信息之间没有其他的信息,本文的方法就认为这两个信息是匹配的。既这个说明信息是用来说明这个数据的。在完成了抽取的过程之后,用这个说明信息来标注对应的数据信息。但是有些时候一些结果页面中包含的数据量是很少的,如果单独通过结果页面中的信息来标注是不行的。就要借助查询接口的信息来标注结果页面中的数据。在这个过程中为了保证数据的一致性本文使用整合接口中的接口模式来标注相应的数据信息。其次,再把上面使用的标注信息进行归类。在归类的过程中主要使用的是数据信息在页面中的表现形式和通过这两个信息邻近信息的相似程度来判断这两个信息的相似程度。把标注信息分类以后,把每类标注信息用一个统一的名字加以说明。这样可以很好的减少标注信息的数据不一致性,提高标注的效率和准确程度。最后,再把每类标注信息进行识别,可以分为数据类型的和文本类型的。这样的分类过程可以使标注信息和本体词组的相似度计算更加的方便。再用逐词比较的方式来计算本体词组和标注信息的相似度,并用相应的本体词组替换对应的标注信息来标注数据。