论文部分内容阅读
人们现在可以从万维网中获得各种各样的信息,但是这些信息都是高度分散、结构各异的。Web数据的这一特点使得网站的管理者花费大量的财力和精力用于网站数据的维护。而另一方面,搜索引擎作为Web信息检索系统的代表,虽然可以较好的为用户提供全网检索服务,但是其却很难进行实时的信息检索,也不能深入网页内部,对特定区域的信息进行查询或重组。扩展标记图(ETG)模型[1]是一种用于描述HTML数据的数据模型。该模型不但能有效的描述HTML标记结构,还提出了一种新的HTML数据存储方式,该方式支持HTML标记结构和数据的分离,有效的解决了HMTL信息的存储优化和管理问题。本文对基于ETG模型的Web浏览和检索服务进行了深入研究,提出并实现了一种切实可行的基于ETG模型的虚拟网页服务模式。这一全新服务模式包含了虚拟网页的设计、浏览、自动生成技术,实现了HTML模式和数据的分离,有利于实现结构清晰的Web数据组织和管理。本文给出了具体的虚拟网页及其模块化语法,ETG自动生成方法,以及服务器框架。通过在实验系统中的测试表明,本文提出的虚拟网页服务系统在实现数据优化存储与组织的基础上,同时也能够实现对用户而言透明的网页浏览。针对网页内部信息查询与重组的需求,本文对基于结构的Web检索技术进行探讨。本文提出了一种基于标记结构的类SQL的Web查询语言TagSQL。该查询语言充分考虑了扩展标记图的特点,除了能方便的描述和定位标记节点,还能对标记集合内的关系进行表述。在以上研究的基础上,我们对具体的基于扩展标记图模型的支持TagSQL查询语言的Web检索服务技术进行了研究,并给出了原形系统PowerSearcher。结合PowerSearcher,本文讨论了TagSQL语言的标记抽取与重组、集合操作、实时查询实现方法。该检索服务技术在实验系统中的应用表明其已具备大多数情况下深入网页内部的信息抽取与重组能力。以上概念和技术为网页浏览服务、信息检索提供了一种新的思路和实现方法,在电子商务中的Web信息服务领域具有一定的学术和应用价值。