论文部分内容阅读
随着信息技术的发展,本体(Ontology)的研究在计算机领域日趋流行,在知识工程、数据库设计和集成、信息检索和抽取、软件需求分析、语义Web、面向对象的分析技术和基于Agent的系统设计中扮演着越来越重要的角色。虽然目前本体工程工具已经较为成熟,但本体的手工构建仍是一项繁琐而辛苦的任务,并最终很可能导致所谓的知识获取瓶颈,因此能否减低本体构建成本,实现本体的半自动自动构建逐渐成为本体研究的一个关键问题。本体学习是利用机器学习和统计等技术半自动或自动地从已有的数据资源中获取期望的本体,主要任务是从数据源中提取术语、概念及其关系。目前国外在该方向的研究很活跃,比较有代表性的是Maedche和Staab提出的平衡协作建模方法,包括本体的导入、抽取、裁剪、精练和评估。国内对本体自动获取的研究相对较少,李守丽等人借鉴了国外的经验,对利用奇异值分解和概念类聚进行汉语本体获取进行了初步讨论。由于中文语法的复杂性,基于中文的本体学习涉及自然语言处理,目前大多数方法都是基于句法分析和统计方法,句子的语义信息不能被充分理解,从语料库中获得的主要是句法信息。本文针对传统本体学习方法缺乏语义信息的不足,将Fillmore的框架语义理论引入到本体学习中。框架语义学的根本特点是经验主义方法,中心思想是词的意义的描述必须跟语义框架相联系。框架作为一个语言学术语,是指人们理解语言时激活的大脑已有的认知结构,这种认知结构是通过词语反映的。本文的第三章、第四章详细介绍了框架语义理论。在第四章中介绍了汉语框架语义知识库的构建、基于框架语义的句法分析、语义标注,比较了框架语义标注与传统的标注方法在描述句子语义上的优势。本章最后我们在标注的结果中,抽取出了我们需要的部分语义特征,构造句法-语义映射结构,该结构为以后本体学习中的一个关键要素。本文第五章分析了现有本体学习系统的体系结构,在句法-语义映射结构的基础上对中文本体学习中的概念抽取、关系学习、模式发现进行了研究,提出了相应的学习方法,对现有的本体学习方法作了语义扩充。