论文部分内容阅读
本体作为一种对共享概念模型的明确的形式化的规范说明,不仅能够以面向对象的方式描述特定领域的主要概念,而且能够描述概念之间的关系。在科技领域,借助科技知识本体,能够有效地组织海量科技信息资源尤其是科技文献资源。而信息抽取作为一项目前不断推进的热点研究,在许多领域得到了成功的应用。
本研究通过理论研究、实例分析、领域建模、系统开发等方法,以科技本体的构建为目标,试图在构建过程中应用信息抽取的方法与技术.在调研比较的基础上,选取了评测结果比较优秀的信息抽取系统进行深入的研究和代码分析,并对其中文支持功能进行完善和扩充.本研究认为,这一框架能够为科技文献的组织提供一个有效的途径,成为科技本体构建过程中的重要参考和有益补充。
本文的主要工作如下:
1.对本体的有关知识进行了介绍,对目前信息抽取技术的研究现状和相关工作开展情况进行了总结和梳理。
2.选取了基于规则的信息抽取系统GATE作为系统架构的基础和平台;对GATE系统进行了较深入的源码学习,梳理了前人的研究成果,学习了其进行语义标注的流程和方法。
3.分析和总结了中文命名实体识别的难点,对GATE的英文处理组件ANNIE进行了改造,使其针对中文信息抽取的准确率得到提高。
4.探讨了面向科技本体构建的中文信息抽取的思路和方案,提出了从非结构化数据到半结构化数据,再到结构化数据的完整的转化思路。
5.实现了一个完整的面向科技本体的中文信息抽取系统的系统架构。对文本输入、预处理到语义标注、抽取、存储各个功能模块的主要工作和流程进行了设计和试验。