基于多特征挖掘的网页信息抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:congrorm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络上每天产生的新网页多到数不胜数,其中新闻、博客类网页占据了大部分,也随着自媒体的火热,新闻、博客类网页的比例也在逐年增高。为了全自动获得网页中有用的主要信息而去除无用信息,出现了大量网页信息抽取算法。这些算法主要根据网页的文本统计特征或者网页的结构特征来简单高效地抽取网页信息,但是它们没有充分利用网页信息,导致在抽取网页时效果不稳定。因此,本文提出基于多特征挖掘的网页信息抽取算法,算法同时利用了网页的文本统计特征、网页结构特征以及网页的视觉信息特征,并使用基于精准率和召回率的CSSDOM节点选择算法来选择出网页正文内容所在节点。  针对网页的CSSDOM节点的分类问题,本文提出基于多特征挖掘的CSSDOM节点分类算法。这个算法首先对网页CSSDOM节点提取网页文本统计特征、结构特征和视觉信息特征,然后使用机器学习分类算法对已经标注的特征数据训练分类模型,最后对于新网页中的CSSDOM节点提取同样的特征,并使用训练好的分类模型分类这些新特征数据。实验结果表明这个算法可以有效的将网页中正文内容节点和噪音内容节点区分开,实验也表明使用多特征的效果要优于只使用文本统计特征或只使用视觉信息特征的效果。  针对网页的正文内容确定问题,本文提出基于精准率和召回率的CSSDOM节点选择算法。该算法和基于多特征挖掘的CSSDOM节点分类算法联合构成本文的基于多特征挖掘的网页信息抽取方法。实验结果表明本文提出的基于多特征挖掘的网页信息抽取方法有很好的抽取效果,同时算法的鲁棒性要优于现有算法。
其他文献
计算机应用的普及、多媒体技术的发展、教育体制的改革是的多媒体教学软件有了很大的市场。但当前市场上的多媒体教学软件质量很难让用户满意。如何在进度范围内制作出高质量
随着Internet的商业化,各种网络产品和网络应用相继出现,加速了IPv4地址的消耗,IPv6在这种情况下应运而生。IPv6在全球越来越受到重视,相应的网络产品和应用也大批涌现,从而
数据挖掘技术是从上个世纪80年代开始发展起来的一门新技术,其主要的目的就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道
随着计算机网络及其应用的快速发展,网络上出现了越来越多的网络平台、应用,用户在不同的平台、应用可能会使用大量的虚拟身份应用信息。不论是静态数据如注册账号,还是用户
随着Internet规模的不断扩大,IP地址不足的问题日益突出。网络地址转换(NAT)技术作为缓解IP地址紧张的一种办法,不仅可以大大提高IP地址的复用率,还能够有效增强局域网的网络安
查询优化是并行数据库系统的核心技术。目前,查询优化的研究主要围绕着具有多个连接操作的复杂关系数据库查询的优化问题进行。近十几年来,人们对于并行数据库中的多连接查询优
动态二进制翻译和动态优化是软件移植和提升系统性能的新途径,近年来围绕该领域展开了大量研究,并出现了一系列有影响的系统。动态二进制翻译和动态优化的主要特点在于将原本
建筑表现要以一定的中介系统或表现媒介来向人们展示建筑及其设计的内容、特征及涵义,传达设计意向,更是与建筑设计过程交互作用不可分割的的一个手段。从建筑表现媒介工具的技
通信协议软件一般要求实时高效、稳定可靠,即能持续地提供可靠的通信服务。对这类软件产品而言,可靠性是一个非常重要的指标,而如何提高其可靠性是当前一个非常重要且急需解决的
从20 世纪90 年代开始,在国际网络界就进行了许多关于高性能的网络体系结构的研究。但由于这些研究都是基于传统的层次结构网络,所以虽然它能对网络的性能进行改善,但难以解