论文部分内容阅读
网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.