基于扩展标记图的网页浏览与检索研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yangwenping666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们现在可以从万维网中获得各种各样的信息,但是这些信息都是高度分散、结构各异的。Web数据的这一特点使得网站的管理者花费大量的财力和精力用于网站数据的维护。而另一方面,搜索引擎作为Web信息检索系统的代表,虽然可以较好的为用户提供全网检索服务,但是其却很难进行实时的信息检索,也不能深入网页内部,对特定区域的信息进行查询或重组。扩展标记图(ETG)模型[1]是一种用于描述HTML数据的数据模型。该模型不但能有效的描述HTML标记结构,还提出了一种新的HTML数据存储方式,该方式支持HTML标记结构和数据的分离,有效的解决了HMTL信息的存储优化和管理问题。本文对基于ETG模型的Web浏览和检索服务进行了深入研究,提出并实现了一种切实可行的基于ETG模型的虚拟网页服务模式。这一全新服务模式包含了虚拟网页的设计、浏览、自动生成技术,实现了HTML模式和数据的分离,有利于实现结构清晰的Web数据组织和管理。本文给出了具体的虚拟网页及其模块化语法,ETG自动生成方法,以及服务器框架。通过在实验系统中的测试表明,本文提出的虚拟网页服务系统在实现数据优化存储与组织的基础上,同时也能够实现对用户而言透明的网页浏览。针对网页内部信息查询与重组的需求,本文对基于结构的Web检索技术进行探讨。本文提出了一种基于标记结构的类SQL的Web查询语言TagSQL。该查询语言充分考虑了扩展标记图的特点,除了能方便的描述和定位标记节点,还能对标记集合内的关系进行表述。在以上研究的基础上,我们对具体的基于扩展标记图模型的支持TagSQL查询语言的Web检索服务技术进行了研究,并给出了原形系统PowerSearcher。结合PowerSearcher,本文讨论了TagSQL语言的标记抽取与重组、集合操作、实时查询实现方法。该检索服务技术在实验系统中的应用表明其已具备大多数情况下深入网页内部的信息抽取与重组能力。以上概念和技术为网页浏览服务、信息检索提供了一种新的思路和实现方法,在电子商务中的Web信息服务领域具有一定的学术和应用价值。
其他文献
在国际互联网络日益进入人们的日常生活,电子政务、电子商务日渐普及的大环境下,PKI相关技术问题正成为国际上研究的热点问题.而更多的CA认证中心的建立,异构CA认证中心的整
随着Internet的迅速发展和WWW技术的日渐成熟,越来越多的企业和组织纷纷在网上开展业务.了解用户的访问行为不仅有助于改善Web站点设计、提高Web服务器系统性能,而且能够改进
随着网络的迅速扩展和网络技术的迅速发展,对网络进行安全有效管理日益成为能否对网络资源有效利用和保护的关键所在。针对网络管理有很多优秀的管理软件,但仅从安全角度考虑进
本文是数据挖掘技术在天气预报中有针对性的应用。本文收集、整理并分析了大量降雹、沙尘以及降水天气资料。首先整理分析了近年从巴盟、包头及呼市各防雹办收集的降雹及雹情
随着计算机系统中商用部件性能的不断提高和价格的不断下降,使得具有良好可扩展性和高性价比的集群系统在高性能计算中的地位越来越重要。应用于高性能计算的集群系统中存在
随着互联网的飞速发展,XML以其强大的数据表达能力以及简单、开放性、可扩展等优点而逐渐成为互联网上信息发布和数据交换的事实上的标准,因此对XML数据进行有效地管理和查询
网络管理的目标是保证一个网络可靠并高效地运行。网络故障管理是网络管理的主要功能之一,如何准确、高效地进行故障诊断及推理是故障管理的核心问题。本文针对由多校区局域网
数据挖掘是数据库最活跃的领域之一。由于其广泛的应用背景和现实意义,数据挖掘技术的研究和应用都获得了突飞猛进的发展,在国内外的学术界和信息产业界备受关注。 数据挖掘
随着网络技术的发展,网络结构日益复杂,入侵攻击也越来越猖獗。入侵检测系统(IDS-Intrusion Detection System)作为防火墙技术必要而有力的补充,近年来成为网络安全研究的热点。
本文以工程代码自动生成为目标,以可视化建模为手段,研究软件体系结构的工程化应用.其核心是软件体系结构描述语言(Code-Generation Supported Architecture Description Lan