基于REIE的Web信息抽取技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：sky_xuky

【摘要】

：

近年来，随着Web信息抽取技术研究的深入和快速的发展，基于正则表达式的信息抽取技术已成为现阶段数据挖掘领域的一个研究热点。本文对这项技术进行深入研究，通过比较和分析当前W

【作者】

：

陈烨

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2011年期

【关键词】

：

HTMLParser 正则表达式信息抽取 REIE算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着Web信息抽取技术研究的深入和快速的发展，基于正则表达式的信息抽取技术已成为现阶段数据挖掘领域的一个研究热点。本文对这项技术进行深入研究，通过比较和分析当前Web信息抽取领域中的经典方法，改进了一些已有的算法并提出了基于REIE（Regular Expression Information Extraction）算法的信息抽取技术。本文首先介绍了Web信息抽取技术的相关理论知识以及体系结构，通过分析和比较几种经典的信息抽取方法，提出了一种基于REIE的信息抽取技术，同时给出了信息抽取系统的评价标准。然后，通过分析Web文本，介绍基于Web文本挖掘的方法，利用Web文本挖掘的相关性，详细地分析了HTMLParser的信息解析方式和抽取原理，并且给出了HTMLParser的数据结构。最后根据正则表达式的抽取规则，提出了本系统的核心算法，即REIE抽取算法。本文最后实现了一个基于REIE的网页内容抽取系统，主要抽取网页新闻的标题，超链接，正文内容等相关信息。该系统能实时的进行网页内容抽取，并将抽取结果以可视化的方式呈现给用户，同时，系统从实验角度验证本文方法的有效性。实验表明，对于基本的新闻相关信息，本文提出的方法具有较高的抽全率和抽准率，并且在一定程度上提高了Web信息抽取的实时性和准确性。

其他文献

藏族服饰在油画教学中的应用价值探讨

藏族文化拥有独特性以及完整性,藏族服饰是藏族文化传承中的一种,具有非常鲜明的特点.当代油画教学中倡导发展新的理念,将藏族服饰应用到油画教学中具有非常重要的意义与价值

期刊

藏族服饰油画教学应用价值

分层导学在高考生物总复习中的应用探索

现阶段福建高考要求生物教学要切实提高学生的综合解题能力.但由于每个学生的成长环境是不一样的,个体之间必然存在着差异,这就要求教师在教学过程中要正视学生间的个体差异,

期刊

分层导学高考生物总复习学生现学习积极性知识基础因材施教学习成绩生物教学能力提升解题能力教学要求教学内容教学目标教学经验教学过程教

模板独立的网页信息抽取研究

随着互联网上信息的迅猛增长,互联网信息己成为最为重要的知识库,人们每天在网络上提供了成千上万的信息,这些由用户创造的信息是十分具有价值的,人们也越来越迫切的希望通过

学位

网页信息抽取机器学习模板独立

中西医结合治疗乳腺癌患者日常生活能力评分的改变情况分析

目的:研究经过中西医结合治疗后乳腺癌患者的生活能力评分,探讨中西医结合治疗乳腺癌在改善患者生活能力方面的作用。方法:将浙江中医药大学附属第二医院收治的乳腺癌患者120

期刊

生活能力评分中西医结合患者生活能力乳腺癌情绪功能躯体功能角色功能生活能力外旋社会功能

基于集值粗糙集的动态知识更新方法研究

粗糙集理论是一种新的处理不一致数据的数学工具。它在机器学习、决策分析和数据挖掘等方面已经有了成功的应用。但是,它要求所处理的信息系统中的数据是精确的和不缺损的。

学位

粗糙集集值粗糙集相容关系增量更新近似集

传统工艺美术融入环境艺术设计课程教学的应用研究

传统工艺美术尤其是少数民族工艺美术是我国珍贵的文化遗产,具有极高的艺术价值和实用性,将其应用到现代艺术设计中能够使现代艺术设计更具有文化底蕴和艺术美感,如环境艺术

期刊

工艺美术环境艺术设计教学研究

基于内核驱动机制的文件安全审计系统关键技术研究

随着计算机网络技术的不断发展,企业信息化普及程度得到了很大提高。在企业内网中越来越多的电子文档保存在计算机中,并逐步取代传统纸质文档。这一改变在给人们工作带来便捷

学位

文件过滤驱动透明加密实时监控I/O请求包可执行文件

从高中生物课本中发掘研究性学习的课题

《普通高中“研究性学习”实施指南》中指出:“研究性学习是学生在教师指导下,从自然、社会和生活中选择和确定专题进行研究,并在研究过程中主动地获取知识、应用知识、解决

期刊

高中生物课本究性学习解决问题的能力应用知识研究课题学习活动首要条件实施指南教师指导获取知识学生选择体验培养目标

另辟蹊径促进中学生物实验开展

步入21世纪已经有15个年头了,摆在生物这门古老的学科面前的路,正走的越来越宽.通过与化学的交叉应用,生态毒理学的开展为促进污染物的降解提供理论依据及工程技术.通过国内

期刊

中学转基因技术生物学家转基因食品生态毒理学交叉应用工程技术分子机制分子靶点多种疾病安全健康医学家污染物科学家制度药物学科食物

宏观意识和采访题目

有些记者,每到一个地方采访,总能很快抓到一批有时代气息的新闻。他们经常是手里有写的,脚下有采的,工作十分自如泰然。我也希望自己成为这样一个记者,我深入实践,勤奋努力,

期刊

宏观意识乌鲁木齐县蔬菜区农民收人不知道社会影响通观全局七户销路好运输户

基于REIE的Web信息抽取技术研究

其他学术论文