Web数据抽取技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:jack0418
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,互联网已成为信息传播与共享的重要资源。由于Web数据的半结构化、异构、海量等特点,使得传统的数据挖掘技术不能直接运用到Web页面数据源上。因此先要对半结构化的Web页面数据进行抽取有用的信息,于是Web数据抽取技术应运而生。由于XML的结构化、可扩展性等众多优点,因此将Web数据抽取的结果以XML形式输出更适合于数据挖掘的需要。本文首先介绍了当前信息抽取理论的研究现状和热点技术,重点分析Web页面数据的特征并研究了Web页面数据抽取技术。本文通过分析Web页面的视觉特征对DOM树进行扩展,结合扩展的DOM树对简单树匹配STM算法进行改进并应用于本文的抽取过程中。然后本文在Bing Li等人提出的Web自动抽取系统基础上结合页面视觉特征对MDR算法进行改进。最后,本文为了提高算法的数据对象识别能力引入了抽取模式的概念,给出了抽取模式树结构,并应用于抽取中。实验表明,抽取模式树的引入提高了数据抽取的召回率。最后将抽取结果输出为XML文档。最后,本文对算法进行了对比实验,并对实验结果进行分析,论述了算法的优点和不足。
其他文献
最近几年,随着信息技术的发展,移动互联网时代的到来,智能手机已成为人们日常生活中不可或缺的一部分,给人们的生活方式带来了很大的改变,不仅使人们之间的沟通更加方便,同时
多计算机系统作为当今最流行的并行计算机,具有广泛的应用领域。Mesh网络拓扑是迄今为止并行计算机系统研究中最重要和最有吸引力的网络拓扑结构之一,随着计算机互联网络规模的
虚拟人在娱乐、虚拟现实等应用领域有着非常广泛的应用。而虚拟人的逼真变形也是一个非常重要的方面,既是一个热点,也是一个难点。在三维游戏等实时应用领域中,对人体变形的逼真
随着传统的数据库技术日趋成熟、计算机网络技术的飞速发展,集中式数据库开始向分布化方向发展。而传统意义上的分布式数据库由于全局数据模式很难设计、管理、扩充和修改等原
复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复述研究的对象主要是短语或者句子的同义现象。复述技术已经被成功的应用到信息检索、自动问答、信息抽取
重庆市政府采购电子交易平台,即重庆市政府采购协议供货平台自2012年开通以来,平台上的商品数量增长迅猛。大量的商品给采购单位带来诸多选择的同时也带来了困扰。如何采购一
目前软件开发过程中第三方组件被广泛使用来提高开发效率,但使用低质量的组件会造成灾难性后果,第三方组件测试的重要性更加凸显。大量第三方组件由于保密性的需要,源码不可
在企业信息化形势下,如何更好地对运输车辆信息进行管理,在很多的企业中已经成为企业面临的一个重要问题。为了更加高效地管理车辆,本文在充分调研车辆管理现状的基础上,提出
随着网络通信技术与多媒体技术的发展,嵌入式视频监控技术逐渐步入到一个全新的数字化网络阶段,广泛运用于电信、银行、交通、电力、智能楼宇等诸多领域。嵌入式视频监控技术
数据挖掘能够发现隐藏在数据中的有用信息,在数据分析领域扮演着重要角色,特别是在零售业,每天需要分析从各个分店产生的大量销售数据,用来帮助商家做出有利的销售决策,比如