领域本体的实例及其关系的自动获取

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:candy136892
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,互联网上的信息成爆炸式的增长。为了应对信息爆炸,需要某种自动化的工具帮助人们从海量的电子文档中找到真正需要的信息。正是在这样的背景下,信息抽取(Information Extraction)的研究孕育而生。信息抽取是指从文本中抽取出特定的事实信息,然后以结构化的形式进行保存,以供进一步的查询使用。本体(Ontology)作为对领域知识的明确的形式化规范说明,刻画了领域内重要的概念和概念之间的关系。当本体以背景知识的形式作为IE系统的外部输入时,可以指导信息抽取的过程,明确抽取任务,并提高抽取性能。在本课题中,本体领域限定为云计算产业,信息抽取的任务为本体中描述的公司名实体、公司的相关属性的识别,以及公司实体和属性间关系、公司实体和公司实体间关系的识别。本文的工作总结为以下三个方面:1.在学习了本体的基本理论和本体的建立方法的基础上,通过对云计算产业相关新闻文本的阅读和归纳总结,手工地建立了云计算产业本体及规则库,其中包含24个概念,29个对象属性,19个数据属性,54条公理,142条实例以及12条规则;并实现了自然语言查询到本体查询语言SPARQL查询映射。2.对本体中的不同类型实体,分别采用了基于规则和基于统计的方法进行识别。特别地,对公司名实体的识别,提出了一种基于条件随机场的两遍扫描识别方法,公司名全称及简称的准确率、召回率和F值分别达到了90.90%,96.78%,93.75%及61.36%,62.79%,62.07%。3.本体实例关系的识别中,在基于特征的关系抽取方法的基础上,进一步利用本体中实例间关系的规则对识别结果进行修正,改进了实例关系识别的正确率。公司间竞争,合作和隶属关系的识别率分别达到了91.20%,97.95%,97.26%。
其他文献
互联网技术的发展,为人们发布和检索信息提供了方便,使得搜索引擎、电子邮件、电子银行、电子政务、管理信息系统成为人们日常生活的重要组成部分。为了更好的管理和使用现有的
双目立体视觉是计算机视觉领域的一个重点热点研究问题,它由左右两台摄像机拍摄同一场景,通过计算空间点在左右图像中成像点的位置视差,然后结合摄像机标定参数和三角视差原