基于标签路径的Web结构化数据自动抽取

来源 :计算机科学 | 被引量 : 0次 | 上传用户:lenvy11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合,并依据路径相似度测量方法来聚类标签路径,实现目标数据区域的定位,然后通过标签节点坐标位置的特性来分离各个数据项,过滤冗余数据,最终完成数据抽取。实验结果表明,与MDR方法相比,该方法在处理拥有结构化数据的网页时,有更高的查全率和查准率。
其他文献
【正】 通观人类社会发展史,我们可以发现,所有独立的新旧社会之间,都有一个承前启后的过度性社会形态。这是人类社会不断向前发展的客观规律。自人类社会产生以来,独立的社
海外市场价格坚挺的趋势也影响原棕油的期货价格。在印度多种商品交易所中,10月原棕油价格上涨至49.25卢比/kg,增长率为0.48%,贸易量为10批。11月合同价上涨至49.06卢比/kg,上涨了0.39%,贸
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
澳大利亚荔枝种植协会表示,2010年荔枝面临着丰收。该协会主席Groves先生表示,9月昆士兰北部由于开花早,最早进入丰收期,但由于2010年冬天的气温比往年高,该地区的荔枝产量比往年
泰国农业经济办事处经济学家春蓬表示,泰国国内砂糖价格上涨,主要原因来自3个方面:2010年发生严重旱灾,导致甘蔗产量降低,砂糖上市总量减少300万t;饮品生产商改为以每公斤23铢的价
在小学数学教学中,教师要根据留守儿童的特点,重视对留守儿童的心理引导和帮助,培养留守儿童的自主学习能力。为此,就需要教师精心设计数学教学活动,必要时融入一些数学史,灵
在2007/2008年度印度联邦政府财政预算案中,印度财政部长介绍,印度政府计划成立一个基金会,专门负责咖啡、橡胶、香料作物、腰果和椰子等经济作物的更新,咖啡和橡胶新植面积约为5
低年级的道德与法治教学在整个小学德育中作用非常大。教师采取合适的教学方式,会使学生加深对课程的理解,提高课堂教学效率。笔者结合自身教学实践,总结了一些低年级道德与
传统的教育观念,过于重视文化成绩,将成绩作为衡量学生综合水平的重要标准,给学生的发展造成了一定的局限性。在现代化教育理论的影响下,全面发展成为新的教育理念,给体育专
在离首都达喀尔200km的南部是塞内加尔花生种植区卡拉克,2009年当地的农民抱怨由于缺乏技术指导而导致花生减产。根据达喀尔花生生产协会的最新信息.塞内加尔的花生是塞内加尔