论文部分内容阅读
知识库是将知识有机组织起来的集合。无论岁月如何更迭、何种计算模型怎样独领风骚,知识库都将是人工智能发展不可或缺的一部分。语义知识库是自然语言处理任务的基础性资源,蕴含机器可读的语义知识,对语义计算和语义推理等任务提供丰富的形式化背景知识,为实现自然语言理解提供有力支撑。传统的大规模语义知识库大多由手工构建且都面向通用领域。随着人工智能的迅猛发展,如今对知识的需求更加广泛,对现有的技术和资源提出更高的要求,这促使知识库逐渐从通用领域拓展至专业领域,逐步从低效的手工构建向高效的自动构建转变,以适应技术革命带来的新挑战。因此,研究一种高效构建领域语义知识库的方法将是一项亟待且有意义的工作。本文基于HowNet的语义理论体系,提出了一种辅助构建航空术语语义知识库的方法。该方法从术语的语义层次,按照自底向上的构建思想实现了术语语义知识库的构建任务,很大程度上提高了构建效率。本文的主要工作包括如下内容:本文所提出的术语语义知识库辅助构建方法根据术语的特点将辅助构建任务分成四个关键过程,分别为术语内部依存结构分析、术语内部词语义项辅助选择、术语内部动态角色关系辅助判断以及术语DEF(概念描述)生成。其中前三个过程完成了对术语的语义分析。针对术语内部一词多义的问题,本文提出了一种基于搭配词的词义消歧方法,并将其融入到术语内部词义选择的过程中,为术语内部每个词语确定义项;实验结果验证了该词义选择方法的有效性。另外,本文也提出了一种基于最大熵分类器与关联单位相似度相结合的动态角色关系辅助判断方法,从统计与语义两个不同层次对动态角色关系进行判断,为术语内部每个关联单位确定关系类型,补全术语内部所有关系三元组的关系类型;实验结果证明了该动态角色辅助判断方法的有效性。对于术语DEF的生成过程,本文提出了一种基于依存树的术语DEF生成方法,即基于术语内部依存结构,按照HowNet的KDML的规定,将术语内部所有关系三元组映射成术语DEF。同时,本文也实现了术语语义知识库辅助构建系统,构建了2000条完整的术语DEF。为了验证该方法构建术语DEF的有效性,经过随机抽样,利用术语间相似度的验证方法,验证了本文方法所构建术语DEF的有效性。