论文部分内容阅读
随着信息技术的迅猛发展,人们可以通过互联网不断地从世界各地交换信息,同时,XML也成为了网络上各种应用程序交换异构数据的新兴标准。面对大量XML。数据的涌现,XML数据检索表现出了越来越大的研究价值。与传统的HTML检索不同的是XML检索返回结果是XML文档片段,而HTML检索返回结果是整个HTML网页。近年来,许多基于XML数据树模型的检索算法被相继提出,这些检索算法普遍存在的问题是人们仅仅从XML数据本身的结构特点去研究,没有从语义的角度去考虑检索问题,从而导致了查询返回结果无法充分满足用户的查询需求。
本文提出了基于语义关联空间的XML检索算法和基于最大重复语义单元的检索算法来解决这个问题,本文的研究内容和研究特色如下:
(1)在自然语言理解中,由于表达方式的差异,导致存在一词多义、同义、近义、歧义等现象,因此字符串匹配不等同于语义匹配。针对此现象,本文提出了语义关联空间的概念和相应的XML检索算法,以提高查询算法的性能和检索效果。
(2)通过大量的研究和观察,我们发现大多数的XML数据文件含有大量的重复结构,体现了这些用来描述实体的重复结构在语义上具有一定的完整性和相似性。针对此现象,提出了最大重复语义单元的概念和相应的XML检索算法,以使查询算法返回结果粒度大小适中的XML文档片段。
本文提供了大量基于真实数据和人工数据的实验结果都证明了基于语义关联空间的XML检索算法和基于最大重复语义单元XML检索算法在查询性能方面与当前其他检索算法相比具有明显的优越性。