论文部分内容阅读
由于web数据的动态性,使得脚本生成的网页结构经常发生变化而导致包装器失效.为提高包装器的健壮性,本文引入一种健壮的抽取框架,并根据HTML树节点编辑操作的概率分布,从Web页面进化的文档数据集中学习得到页面进化的概率模型,通过优化该模型来构建健壮的包装器,并提出了一种评估抽取可信度的方法.实验证明,该算法可以有效地应对网站的变化,提高了包装器的健壮性.