论文部分内容阅读
关键字查询因为用户不需要学习任何复杂的查询语言,也不需要了解底层数据的结构,在信息检索、搜索引擎等领域得到了广泛应用。随着XML成为数据表示和数据交换的事实标准,针对XML数据关键字查询的研究成热点。XML具有自描述性、可扩展性,内容和表现形式分离,平台无关性等特征,如何充分利用XML的特性提高搜索的效率和精度具有一定的实际意义。 XML文档中标签具有一定的语义信息,XML关键字查询结果应该是与用户提交的关键字紧密相关的XML文档片断。本文对XML查询中的结果片断大小及细化程度进行了研究,指出了SCLA的定义缺陷,提出了最紧密子树概念(MCST)。并把查询关键字结果集分为最紧密结果集和松散结果集。最紧密结果是指查询关键字出现在同一个实体对象中,松散类结果是指查询关键字被包含在多个实体对象中。同时,我们提出了基于MCST的XML查询算法。通过对算法的分析,与现有算法DIL和ILE的比较,实验表明这种方法在XML关键字查询的性能方面有一定的提高。