论文部分内容阅读
XML以其简单性、开放性、可扩展性以及互操作性等特点,已经成为驻留在Web上的主要信息表示形式之一。目前,多个应用领域已经确定了与XML相关的行业标准,例如:SOC设计中IP组件的XML描述,电子商务中的ebXML以及XML在数字图书馆中的应用等。随着XML技术在各行各业的广泛应用,基于XML文档的结构化及自描述等特性进行有效的信息检索已成为国际信息检索领域研究的热点问题之一。目前的XML信息检索属于精确查询,而大多数的搜索任务在本质上是探索性的、不精确的;分面搜索的出现,解决了传统搜索方法的不足,是一种有效的搜索方式。将分面搜索技术应用于XML信息检索,可以充分利用分面搜索的优势,为用户提供交互的检索界面,引导用户找到结果。本文围绕XML分面搜索的关键技术进行了研究,提出了适用于XML分面搜索的索引结构,改进了分面推荐算法,最后实现了XML分面搜索原型系统。首先,对XML文档建立倒排索引,其次,研究XML文档分面搜索中的分面推荐方法,提出了XML分面的相关性定义,将统计面的覆盖率方法和XML分面之间的相关性方法相结合进行XML分面推荐,并在公用数据集上进行了实验。实验结果表明,结合XML分面之间的相关性可以有效地推荐最具有导航能力的分面。XML分面搜索原型系统功能包括对XML文档自动建立索引、XML分面值推荐、XML分面搜索及与用户的交互界面等,该原型系统具有一定的实用性。