【摘 要】
:
万维网的飞速发展使得Web中存在的各种结构化数据信息数量与日俱增。然而,Web中可访问到的海量的结构化数据信息大都以半结构化的html网页文档形式出现,很难被各种应用程序直
论文部分内容阅读
万维网的飞速发展使得Web中存在的各种结构化数据信息数量与日俱增。然而,Web中可访问到的海量的结构化数据信息大都以半结构化的html网页文档形式出现,很难被各种应用程序直接获取和使用。因此,旨在实现自动获取html网页中结构化数据的Web信息抽取技术已经成为当今的一个研究热点。目前,已经有大量针对Web信息抽取的研究,并且出现了许多基于不同原理的Web信息抽取技术。本文主要研究并提出了两种能够处理特定类型网页的Web信息抽取方法:第一种方法用来处理相同模板生成的网页。它以一组同模板生成的网页为输入,自动推断网页的生成模板,并利用获取的模板生成相应的网页包装器,实现同模板网页中的结构化数据抽取。其中算法EXALG_tju基于EXALG算法的核心思想,利用html文档的树形结构对网页模板进行逐层推断。第二种方法主要处理网页中含有的某一专业领域中的特定半结构化文本。它根据指定文本的特征而制定规则,并使用规则和特定字典来获取文本中含有的结构化数据,同时使用一种字段名模糊匹配的语义技术对获取数据的类型进行自动标注。两种方法的实验结果表明:第一种Web信息抽取方法在大多数情况下可以正确的抽取结构化数据,第二种方法则需要在人工帮助下进行信息抽取工作,或者作为其他抽取系统的辅助而使用。论文在最后简要介绍了面向创新领域网络搜索引擎的系统框架,以及上述两种Web信息抽取方法在该系统中的应用。
其他文献
我国高职教育的课程设置仍存在注重学科系统化,忽视对工作过程的分析的弊端,因此也忽视了工作过程知识的教学。文章试从高职课程的现状出发,阐述高职教育应该重视工作过程知
<正>高校食堂经营管理中有这样或那样不安全的问题,它是导致突发事件,也是直接关系到食堂安全,关系到高校广大师生员工身心健康的原因。食堂管理与食品安全及应急措施是学校
目的探讨小儿腹泻治疗中药物联合应用的安全性及有效性。方法选择本院2011年1月~2012年12月间收治的腹泻患儿120例作为研究对象,120例患儿随机分为对照组和治疗组,对照组单纯
在中国音乐文化事业不断发展前进的同时,我们国家的声乐事业迎来了新的春天。尤其是改革开放以来,民族声乐的发展突飞猛进,涌现出了一大批深受老百姓喜爱的歌唱家,80年代初,
基于可见/近红外透射原理,针对樱桃番茄内部品质不均,果径不同等特点,建立樱桃番茄透射检测系统,结合相关性分析和归一化处理对樱桃番茄的果径进行校正,在此基础上对樱桃番茄
<正> Calgene公司在植物遗传工作中连续取得突破性进展。Calgene公司的一个研究小组已经把耐草甘膦的aroA基因转入烟草中,并使它在再生的烟草中成功地获得表达。对经过转化的
本文主要以股票价格指数期货(Stock Index Futures简称股指期货)为研究对象,股指期货是资本市场的一种重要金融衍生工具。伴随着中国资本市场的发展,股票市场在国民经济中的
采用传统的活性污泥(CAS)和新型生物处理技术垂直折流生化处理技术(VTBR)对实际焦化废水进行了试验室处理研究,从COD、挥发酚、有机组分等化学指标和生物毒性指标对2种工艺的
应急预案是针对可能发生的重大事故或灾害,为保证迅速、高效开展应急救援行动、降低事故损失而事先制定的科学的计划和方案,是应急处置的重要依据。将应急预案中科学、标准的