基于自扩展的本体学习方法

来源 :东南大学 | 被引量 : 0次 | 上传用户:laq_sky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义Web是下一代Web发展的重要方向,本体(Ontology)是语义Web的核心,然而手工构建本体却非常繁琐而耗时。因此,本体学习(Ontology Learning),或自动与半自动的本体构建,成为研究的重点。按照Staab等人的定义,本体学习共分为六层,分别为术语、同义词、概念、概念层次、关系和规则。作为本体学习的第一层,术语获取(Term Extraction)是概念、关系和规则学习的基础,在本体学习方法中扮演着重要角色。 术语获取需要解决的主要问题是:减少人工标注训练样例的工作量,以及发现新术语。针对这两个问题,本文利用海量的Web页面,提出了两种针对不同种类页面的术语获取方法。对结构性较强的网页,本文提出了一种基于序列覆盖算法的模板标签参数学习算法。该算法以列表页面作为输入进行规则的学习,每轮迭代都选择一个未覆盖样例为学习对象,通过对页面标签结构的学习,在规则集中加入一条新规则,直到所有训练样例都被覆盖,返回已完成规则学习的分装器。然后使用学得的分装器,结合基于模式的术语获取算法进行术语获取。对结构特征不明显的网页,本文提出了一种基于自扩展(Bootstrapping)的术语获取方法一基于多模式评分的自扩展算法。该方法以导师提供的种子术语集合作为输入,在每一轮迭代中,算法首先采用ANNIE进行浅层自然语言处理,解析句子的主、谓、宾等句法成分以发现新的模式,然后使用新发现的模式进行候选术语获取,并使用模式的可信度评价函数对模式进行评分,选出最优模式,最后对最优模式获取的术语使用基于多模式的评价函数计算术语的领域相关度,选择10个最佳术语放入语义词典中。这一过程不断迭代,实现术语的获取。 本文将模板标签参数学习算法及基于多模式评分的自扩展算法运用到语义Web的应用——DynamicView系统中,实验结果表明这两种方法可以显著减少领域专家的工作量,成功的发现新术语,同时具有较高的精度和召回率,是可行的术语获取方法。
其他文献
随着航天技术的飞速发展,合成孔径雷达(SAR)的应用越来越广泛,SAR图像的分析处理也备受关注。但由于SAR成像复杂、数据量大、及乘性噪声的干扰,SAR图像处理比常规图像处理更加困
地籍管理是土地管理的核心,是国家行政管理措施之一,是强化土地管理的基础性工作。地籍信息管理系统是土地信息系统的重要组成部分,是地理信息系统技术在地籍管理中的应用。地籍
学位
随着图像信息的日益普及,图像在很多领域都有非常重要的作用。然而在对图像信息进行处理的过程中,由于种种原因,其质量有可能受到损害,噪声就是其中之一。因此为了后续更高层次的
目前电信行业竞争的日益加剧,基础网建设的竞争优势逐渐减弱,运营商更多的关注如何利用现有的资源,通过提高管理水平、运营能力,对用户提供灵活、可靠的业务。近年来,随着网
随着信息时代的到来,数据之多使人如坠茫茫数据之海,有用、无用、正常、异常的数据常常掺杂在一起,真伪难辨。企业在发展过程中,也积累了大量的纷繁复杂数据,如何利用这些数据来指
Web应用是Internet上的主要应用。Web应用具有信息量多、结构复杂、负载重等特点。研究表明,Web已经成为Internet应用的瓶颈。研究Web加速具有重要意义。Web加速技术,包括Web缓
随着光通信技术和数字传输技术的飞速发展,数据通信网中的带宽和服务质量问题已经不再成为瓶颈,从而促使Internet上的各种实时业务的发展。作为典型的实时IP业务,VoIP(Voice ove
HS(Harmonized System)目录是一种国际通用的进出口商品分类体系,在国际贸易中得到了广泛应用。目前,HS目录已成为执行各类监管政策和进行进出口统计的基本体系,而HS编码则是海
随着计算机技术的普及和Internet的飞速发展,信息安全问题日益突出,信息系统面临着前所未有的安全挑战和日益增多的威胁。其中,基于缓冲区溢出漏洞的攻击方式在当前和过去的
1993年,C.Barrou等人发表了著名的、具有深远意义的Turbo码论文,自此拉开了对Turbo码研究的序幕。Turbo码具有接近Shannon限的性能,它的出现在编码理论界引起了轰动,成为自信息论