Web信息自动抽取技术的研究与实现

来源 :武汉理工大学 | 被引量 : 13次 | 上传用户:NewComeMan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的不断发展及其应用的深入,Web已经发展成为一个巨大的、分布式的和共享的信息资源,可用信息正在呈指数级增长。目前Web数据大都以HTML的形式出现。由于HTML缺乏对数据本身的描述,不包含清晰的语义信息,这使得由HTML描述的Web页面只适合浏览。为了增强Web数据的可用性,出现了Web信息抽取技术,它通过包装现有的Web信息源,将网页上的信息以更为结构化的方式抽取出来,为应用程序利用Web中的数据提供了可能。因此它有着明显的优势和广阔的前景,是当今研究的热点。将信息从网页中抽取出来通常是由包装器(Wrapper)完成的。编写包装器的过程经历了手工、半自动化以及正在研究的全自动三个阶段。已有的手工以及半自动化包装器的建立方法存在着几个主要的困难:首先,大量的手工操作对使用者提出了很高的要求;其次,包装器维护繁锁,不具有通用性。本文在研究现有的Web信息抽取技术的基础上,提出了一种基于树结构的自动提取网页数据的方法。本文的主要贡献有以下几点:1.提出并实现了一种获取相似网页的方法。该方法通过对页面结构的分析,能够非常有效的判断出页面的类型,根据不同的页面类型采取不同的策略,从而能够非常准确的获取到相似的网页。2.改进并实现了一种基于树结构的网页数据自动抽取的算法。该算法通过对不同网页的比较,利用不匹配项来确定包装器。同时,根据产生的包装器来生成数据的模式,并对包装器的变量进行了语义标识,最后实现了将数据从网页中自动抽取。本文提出的这种算法相比现有的Web信息自动抽取算法,有了较大的改进。3.设计并实现了一个Web信息自动抽取的原型系统。通过该系统用户能够把HTML页面中感兴趣的信息点抽取出来,用户能够快速的获取到需要的信息。该系统具有一定的通用性和灵活性。本文提出的Web信息抽取方法能够较好的解决Web信息自动抽取的问题,系统实现了很高的抽取精度。
其他文献
遗传算法是一种在达尔文生物进化论基础上建立起来的搜索最优解的方法。遗传算法相较于传统方法有其优势,但是也存在弊端。针对标准遗传算法在复杂问题的寻优过程中存在容易
目的采用稀释血浆凝血酶时间法(稀释纠正法)检测血浆中特异性凝血酶抑制物,为抗血栓形成治疗提供有效的实验室监测试验。方法延长的凝血酶时间(TT)用正常人混合血浆作1:4稀释后作TT
建立战略储备是保证紧缺资源铜供应安全的一条重要途径,目前国家储备中存在忽略成本控制的弊端。本文以战略铜储备综合成本为主要优化目标,在终端时间、市场出清条件约束下,
随着互联网的发展,网络舆情已经成为公众表达意见看法,获取消息的新途径。频繁发生的网络舆情事件对网络舆情的管理提出了更高的要求。在政府进行网络舆情管理中,有效的政府
<正>1概述手术部位感染(SSI)是医院感染中按感染部位分类的一种类型,是指发生于术后手术切口部位和(或)手术过程中所经路径相关部位的感染。当今医学的进步使SSI控制到了较低
在法治国家、法治政府、法治社会一体建设过程中,村规民约在乡村治理中具有积极的功能。贵州省锦屏县启蒙镇边沙村在环境卫生管理中制定《村寨文明卫生秩序公约》等村规民约,
新生代白领已逐渐成为当今职场中的重要一族,厘清其职业诉求对于管理者准确把握新生代白领的职业价值取向并采取有效的管理措施具有重要意义。通过对中关村科技园区8家企业的