正则表达式在网页数据采集的应用与研究

被引量 : 16次 | 上传用户:W6216286
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展与普及,人们越来越习惯于通过各种终端(PC、平板、手机等)从互联网来获取信息。基于Web的信息抽取技术就是研究从这些Web网页中如何定制提取出用户需要的信息,并把这些提取出的信息结构化处理。本文的主要工作是采用基于正则表达式的相关技术,以学术谷歌网站的论文采集以及澳客彩票网站的足彩投注数据采集分析两个应用为实例,给出Web网页信息的自动提取问题解决方法。在实现基于NFA引擎正则表达式网页提取基本功能的基础上,本文还对正则表达式的优化进行了分析和比较。本文在网页正则提取的过程中进行了两轮的优化和分析,分别为基于NFA引擎的表达式优化以及在Windows平台下结合NFA引擎与DFA引擎使用的优化分析和比较,其结果以图表的形式加以展示。本文实现两个网页实例采集的解决方案是:首先使用RegexBuddy3工具对目标网页源文件调试正则表达式,然后在.Net平台下,利用测试通过的正则表达式编程实现网页文件正则匹配提取字段、数据记录写入Oracle数据库等操作,并对数据做图表展示分析等。本文的方法能够对学术谷歌论文基本信息的批量提取以及论文的多线程批量下载以及澳客彩票网站足彩信息的批量提取与分析。本文采用的方法支持HTML标签的过滤以及HTML页面内各种数据的采集,对网页采集的记录、字段提取准确性高。
其他文献
马克思的矛盾和谐辩证法与列宁的矛盾斗争辩证法是马克思主义辩证法的两个历史形态,是马克思、列宁分别于19世纪和20世纪依据自己对黑格尔矛盾辩证法的不同解读构建的辩证法
制定科学合理的高职院校思想政治理论课评估指标体系,是做好思想政治理论课评估工作的关键。其指标体系的设计应坚持导向性、整体性、客观性、可测性、简易可行性的原则,并着重
植物适应干旱环境,以各种反应维持自身的水分平衡,避免或减轻缺水对细胞的危害.本文从功能蛋白、渗透调节因子、转录因子以及蛋白激酶等方面,简单阐述植物对干旱胁迫响应机制的研
目前,有些设备驱动程序已经可以正常地在Space系统上运行,但是对于独立显卡的驱动程序来说,Space系统上只能安装运行两大显卡品牌之一的NIVDIA显卡的驱动,而AMD显卡驱动程序
作为一个多民族国家,每一个少数民族由于特定的自然环境与人文环境的差异,对各种不同色彩的认识与理解千差万别。本文主要是立足于西北少数民族美术研究基础上,通过对西北地
胡锦涛同志在党的十八大上铿锵宣示:“努力建设美丽中国,实现中华民族永续发展”。改革开放30年来中国经济的快速发展,社会财富迅速积累,城市环境大大改善。与城市相比,农村环
绘本与动画是各具魅力的艺术表现形式,两者都广受大众欢迎。近几年来,随着多媒体技术的不断发展,动画与绘本的跨媒介改编现象层见迭出。日本、欧美等国家皆有相关的佳作不断
目的:本研究主的目的在于对妇科腹部手术患者术后第一天、第三天的中医四诊信息进行聚类分析,探讨妇科腹部手术后第一天、第三天的中医证型分布规律。分析妇科腹部手术后早期
邪教组织,是指那些以宗教为名,行邪道说教、妖言惑众之实,妨害社会管理秩序,危害社会稳定和他人身心健康的组织。自80年代以来,邪教活动在我国发展蔓延很快,参与人数多,严重影响社会稳
石油和天然气是一国极其重要的战略资源,是国民经济的重要物质基础,未来国家命运取决于能源的掌控。冷战结束后,全球就开始面临经济发展与能源短缺两方面的压力。随着工业的