网络信息自动化高效抽取技术研究

被引量 : 0次 | 上传用户:dada_2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网爆炸式的发展和普及,网络信息已经成为了一种宝贵的信息数据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代,越来越多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整合。然而,由于网页文档的半结构化性质,网页上呈现的数据往往不能被机器自动地抽取和理解,因此,网络信息抽取的研究目标在于提取网页的结构化数据。互联网数据的海量规模与高度异构的特征,为网络信息抽取工作带来了巨大的挑战。本文围绕网络信息的海量规模与高度异构的特征,分数据记录抽取和数据单元抽取两个层次,对自动化、高效抽取网络信息的技术展开了相关研究,研究内容包括以下四个方面:1.针对网络信息高度异构的特点,提出新的自动化的基于锚点树的数据记录的抽取方法(Mining data records Based on Anchor Trees,MiBAT)。首先分析了当数据记录含有一定的不规则内容时(例如用户原创内容)时,现有的基于相似度检测的自动化方法并不能取得理想的抽取效果。本文提出锚点的概念,对应数据记录中的某些关键的数据单元。例如,每个用户创建、发表的帖子记录(例如在线论坛帖子、用户评论等)都含有发帖时间这个关键的数据单元,可以作为由领域约束获得的锚点。本文提出MiBAT方法,利用领域约束检测出锚点,然后围绕包含锚点的DOM(Document Object Model)子树,完成数据记录的自动化抽取工作。实验表明,与以往的自动化的数据记录抽取方法相比,MiBAT方法可以较好的克服数据记录的不规则性,具有较高的抽取准确度。2.针对数据记录层次的网络信息的海量规模的特点,提出快速高效的锚点树的寻找算法。传统的网络信息挖掘算法采用自上而下的枚举DOM子树的方式,按照这种方式设计锚点树寻找算法,MiBAT的时间复杂度为O(n2),其中n是输入网页的DOM树的结点的数量。本文提出一个新的基于标签路径自底向上聚集的锚点树寻找算法,使得MiBAT的时间复杂度降到O(nlogn)。实验表明,新的锚点树寻找算法极大地提高了MiBAT方法的运行效率,同时保持较高的抽取准确度。3.针对网络信息的跨领域异构的特点,提出不依赖领域约束的通用锚点的检测方法。锚点的概念最初由领域约束而来,对应于领域相关的数据单元。在实际应用时,对不同的领域,需要预先指定相应的领域约束,这在某种程度上限制了MiBAT方法的自动化应用。本文对此进行扩展,提出通用锚点的概念及其检测和应用方法。实验表明,应用通用锚点时,MiBAT方法可以应用于不同的领域的信息抽取任务,具有较高的准确度,不需要人为指定领域约束。4.针对数据单元层次的网络信息的海量规模的特点,研究快速高效的DOM树匹配算法,应用在数据单元抽取对齐任务中。现有的广泛应用的树匹配方法的复杂度是O(n2),并不适合海量规模的网络信息抽取任务。本文提出一个新的基于标签路径序列的最长公共子列(Longest Common Subsequence,LCS)的方法。利用LCS问题的稀疏性质,算法复杂度可以达到O(rlogn),其中r等于两棵树上具有相同标签路径的结点对的数量;当两棵树的候选匹配较为稀疏时,r≈O(n),算法的复杂度接近O(nlogn)。实验表明,与现有的广泛应用的DOM树匹配方法相比,本文提出的方法具有更高的运行效率,同时保持较为一致的树匹配准确度和数据单元对齐准确度。综上所述,本文在数据记录抽取和数据单元抽取两个层次上,提出了自动化的、高效的网络信息抽取方法,能够较好的适应网络信息高度异构和海量规模的特点,具有较大的理论价值和实际应用价值。
其他文献
随着科技的发展,各高校对科研任务和科研水平的要求逐渐提高。高等院校越来越重视对教师科研信息的管理,其中管理模式的科学化与规范化、管理手段的信息化和自动化也将对学校的
随着智能手机的广泛流行,移动互联网正不断改变着人们的生活方式,将用户从PC端带到了移动端,这一切都是因为手机应用程序(Application)的丰富,使移动终端基本上具有电脑的所有功
随着我国水泥工业的迅猛发展,对煤炭资源的需求量越来越大,特别是对优质烟煤的需求量,而当今,烟煤的储存量越来越少。由于低挥发分无烟煤着火温度高,不易被燃尽,因而在分解炉内燃烧
随着市场经济全球化的发展,铁路货运具备铁路货物运输的优势,在满足企业的需求,将基本服务和增值服务融合在供应链中,不断创新产品内容,使铁路运输向第三方物流发展,实现铁路
模拟二代微光管制管工艺 ,对 MCP经不同工艺处理后的放气成份进行分析 ,发现工艺质量本身是造成 MCP污染的主要因素。经改进工艺 ,提高了制管成品率和管子性能。
以基层水利工程建设管理单位水利工程建设项目审计、稽查反馈的问题为背景,指出了会计核算方面仍尚存许多亟待解决的现实问题.从基层水利工程建设管理单位会计核算问题现状入
目的:研究茅莓的化学成分。方法:利用硅胶柱层析色谱进行分离纯化,通过波谱分析鉴定化合物结构。结果:从茅莓中分离得到了7个化合物,分别是:β-谷甾醇(Ⅰ)、月桂酸(Ⅱ)、邻硝
榆林银河煤矿井田范围地面保护物数量多、种类繁杂,分布范围广,严重的影响着银河煤矿的可持续发展,其下压煤开采已成为银河煤矿亟待解决的重大问题。论文针对地面保护建筑物的类
为了优化上海城市生态网络结构,综合应用景观格局、景观格局指数以及景观生态网络分析方法,提出上海城市生态品质提升途径。首先,应用面向对象的遥感图像分类方法获得了2008
城市供水管网担负着将生活饮用水由水厂向用户输配的重要任务。长年的运转加上电化学、物理化学、微生物等作用的影响,供水管网管道内壁上会逐渐形成不规则的环状物质,称为“生