面向科技本体构建的中文信息抽取研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:mym890419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体作为一种对共享概念模型的明确的形式化的规范说明,不仅能够以面向对象的方式描述特定领域的主要概念,而且能够描述概念之间的关系。在科技领域,借助科技知识本体,能够有效地组织海量科技信息资源尤其是科技文献资源。而信息抽取作为一项目前不断推进的热点研究,在许多领域得到了成功的应用。 本研究通过理论研究、实例分析、领域建模、系统开发等方法,以科技本体的构建为目标,试图在构建过程中应用信息抽取的方法与技术.在调研比较的基础上,选取了评测结果比较优秀的信息抽取系统进行深入的研究和代码分析,并对其中文支持功能进行完善和扩充.本研究认为,这一框架能够为科技文献的组织提供一个有效的途径,成为科技本体构建过程中的重要参考和有益补充。 本文的主要工作如下: 1.对本体的有关知识进行了介绍,对目前信息抽取技术的研究现状和相关工作开展情况进行了总结和梳理。 2.选取了基于规则的信息抽取系统GATE作为系统架构的基础和平台;对GATE系统进行了较深入的源码学习,梳理了前人的研究成果,学习了其进行语义标注的流程和方法。 3.分析和总结了中文命名实体识别的难点,对GATE的英文处理组件ANNIE进行了改造,使其针对中文信息抽取的准确率得到提高。 4.探讨了面向科技本体构建的中文信息抽取的思路和方案,提出了从非结构化数据到半结构化数据,再到结构化数据的完整的转化思路。 5.实现了一个完整的面向科技本体的中文信息抽取系统的系统架构。对文本输入、预处理到语义标注、抽取、存储各个功能模块的主要工作和流程进行了设计和试验。
其他文献
自存储是实现公共资助科研成果长期保存与开放存取的一种重要且易行的途径,涉及科研人员与出版商之间的关系,以及科研人员内部(作为科研成果生产者与使用者)之间的关系。公共资
本文从电子商务网站的实际应用出发,运用理论研究、调查研究和案例研究的方法,通过调查和用户实际操作反馈,发现电子商务网站设计中的不足,针对问题进行分析和研究。运用信息构建
无论是DeepWeb数据集成系统,还是数字图书馆的跨库集成检索系统,都面临的一个巨大挑战就是如何更加高效地集成各种分布的、异构的Web数据源。这个问题具体又可以分为两个子问题
一、活动背景rn学生通过调查、访问、分析、交流等形式,深入了解自己身边“息息相关”的商业网点布局情况.一方面,本着“学习对生活有用的地理”、“学习对终身发展有用的地
期刊
本文在收集和阅读相关资料的基础上,针对传统企业价值流的现状和局限性,分析了信息化企业价值流的优越性,并且以系统理论、价值链及价值流的思想为指导,运用企业管理理论,建立了信息化企业的价值流模型,并对之评价。首先,基于价值链和价值流理论的研读,对企业的价值流内涵进行了系统的分析,并试图将信息化技术应用于企业管理中。接下来,采用对比分析的方式,对传统企业的价值流进行分析,指出传统企业中价值流运行的弊端;
高技术服务业(HTS)是高技术产业与知识型服务业融合形成的新兴服务业,是我国重点发展行业。服务创新是HTS发展的基础和动力,研究HTS创新具有重要的意义。HTS创新能力评价体系是
学位
我国的互联网自1997年进入高速发展期以来,互联网用户和终端设备的规模不断扩大,截至2009年6月,我国网民总数已经达到3.38亿,普及率为25.5%,年增长率为13.4%。  近几年来,基于Web2.
随着计算机技术和网络技术的发展,数字资源越来越成为高校图书馆馆藏的重要组成部分。数字资源以其无可比拟的共享性、可获得性、信息密集性等优势赢得了广大学术研究者的喜爱
一、研究背景现代社会,以计算机、网络和通讯技术为核心的现代信息技术正在取代以铁路、电力、机械工具等为核心的传统技术基础设施,成为新的社会技术基础,这是当今社会发展