论文部分内容阅读
语义Web是下一代Web发展的重要方向,本体(Ontology)是语义Web的核心,然而手工构建本体却非常繁琐而耗时。因此,本体学习(Ontology Learning),或自动与半自动的本体构建,成为研究的重点。按照Staab等人的定义,本体学习共分为六层,分别为术语、同义词、概念、概念层次、关系和规则。作为本体学习的第一层,术语获取(Term Extraction)是概念、关系和规则学习的基础,在本体学习方法中扮演着重要角色。
术语获取需要解决的主要问题是:减少人工标注训练样例的工作量,以及发现新术语。针对这两个问题,本文利用海量的Web页面,提出了两种针对不同种类页面的术语获取方法。对结构性较强的网页,本文提出了一种基于序列覆盖算法的模板标签参数学习算法。该算法以列表页面作为输入进行规则的学习,每轮迭代都选择一个未覆盖样例为学习对象,通过对页面标签结构的学习,在规则集中加入一条新规则,直到所有训练样例都被覆盖,返回已完成规则学习的分装器。然后使用学得的分装器,结合基于模式的术语获取算法进行术语获取。对结构特征不明显的网页,本文提出了一种基于自扩展(Bootstrapping)的术语获取方法一基于多模式评分的自扩展算法。该方法以导师提供的种子术语集合作为输入,在每一轮迭代中,算法首先采用ANNIE进行浅层自然语言处理,解析句子的主、谓、宾等句法成分以发现新的模式,然后使用新发现的模式进行候选术语获取,并使用模式的可信度评价函数对模式进行评分,选出最优模式,最后对最优模式获取的术语使用基于多模式的评价函数计算术语的领域相关度,选择10个最佳术语放入语义词典中。这一过程不断迭代,实现术语的获取。
本文将模板标签参数学习算法及基于多模式评分的自扩展算法运用到语义Web的应用——DynamicView系统中,实验结果表明这两种方法可以显著减少领域专家的工作量,成功的发现新术语,同时具有较高的精度和召回率,是可行的术语获取方法。