面向主题的XML网页的模式和数据抽取

来源 :华侨大学 | 被引量 : 0次 | 上传用户:dddnnn111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅速发展使得网络上的信息量大大增加,为用户提供了一个极具价值的信息源,但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确的从浩瀚的信息资源中寻找到所需信息己经成为困扰网络用户的一大难题。 随着XML技术的不断发展,WWW上出现了一些以XML作为标记语言的Web网页,本文针对XML网页,提出了一种面向特定主题的信息抽取方法。它根据用户给定的查询主题及其属性,提出一种从样本网页集中抽取出模式信息的方法,然后利用这个模式信息对处理过的目标XML网页进行匹配查询,最终从这些目标网页中利用所提出的模式匹配算法抽取出用户所需的数据。 本文首先对Web信息抽取的发展情况进行了综述,然后重点讨论了针对某一主题的XML文档的分析和抽取方法及实现,以及今后的发展趋势,最后利用一个实例进行了实验,实验结果表明系统达到了较高的精确度,得到了比较全面的信息,从而较好地实现了系统预期要到达到的完整性和准确性要求。
其他文献
信息技术的飞速发展给现代教育带来了新的机遇和挑战,这也为解决目前人们广为关注的学生心理健康教育问题提供了新的途径。教育虚拟社区,作为一种基于网络的虚拟教学环境,比一般
由于计算机处理能力的不断增强,国内外CAD技术的飞速发展,CAD技术被广泛应用于众多领域。随着声表面波传感器技术的不断发展,声表面波传感器将应用于越来越广泛的学科领域。
网格环境下的数据管理与传统的分布式环境下的数据管理不同:数据库大多是一些比较大型的数据库系统;这些数据库往往多是动态性的,具有自治性和分布式的特点。为了解决网格上