论文部分内容阅读
随着互联网的快速发展,网络上每天产生的新网页多到数不胜数,其中新闻、博客类网页占据了大部分,也随着自媒体的火热,新闻、博客类网页的比例也在逐年增高。为了全自动获得网页中有用的主要信息而去除无用信息,出现了大量网页信息抽取算法。这些算法主要根据网页的文本统计特征或者网页的结构特征来简单高效地抽取网页信息,但是它们没有充分利用网页信息,导致在抽取网页时效果不稳定。因此,本文提出基于多特征挖掘的网页信息抽取算法,算法同时利用了网页的文本统计特征、网页结构特征以及网页的视觉信息特征,并使用基于精准率和召回率的CSSDOM节点选择算法来选择出网页正文内容所在节点。 针对网页的CSSDOM节点的分类问题,本文提出基于多特征挖掘的CSSDOM节点分类算法。这个算法首先对网页CSSDOM节点提取网页文本统计特征、结构特征和视觉信息特征,然后使用机器学习分类算法对已经标注的特征数据训练分类模型,最后对于新网页中的CSSDOM节点提取同样的特征,并使用训练好的分类模型分类这些新特征数据。实验结果表明这个算法可以有效的将网页中正文内容节点和噪音内容节点区分开,实验也表明使用多特征的效果要优于只使用文本统计特征或只使用视觉信息特征的效果。 针对网页的正文内容确定问题,本文提出基于精准率和召回率的CSSDOM节点选择算法。该算法和基于多特征挖掘的CSSDOM节点分类算法联合构成本文的基于多特征挖掘的网页信息抽取方法。实验结果表明本文提出的基于多特征挖掘的网页信息抽取方法有很好的抽取效果,同时算法的鲁棒性要优于现有算法。