【摘 要】
:
本文首先介绍了信息抽取的产生背景、技术内涵和基本应用,分析了信息抽取系统体系结构、信息抽取的关键技术以及分类和衡量指标。本文还介绍了ontology和规则表达式的基本知
论文部分内容阅读
本文首先介绍了信息抽取的产生背景、技术内涵和基本应用,分析了信息抽取系统体系结构、信息抽取的关键技术以及分类和衡量指标。本文还介绍了ontology和规则表达式的基本知识。在此基础上,本文提出了一种基于ontology 和规则表达式的信息抽取方法。在方法中,我们把信息抽取、规则表达式和ontology 结合起来,先利用领域ontology 里的概念、关系、关键字等生成匹配模式,然后对文章,句子进行语法分析预处理,再利用语法分析的结果和预定义的抽取规则一起对文档进行抽取,最后把抽取的结果以记录的形式输出到数据库以便查询。在本文中,我们根据上述方法并结合工程实际情况,设计了一个基于ontology的股票信息抽取系统并编写代码实现了这个系统。因此,在本文中,我们详细介绍了系统的总体框架,系统的各主要模块的设计等。由于本系统是根据规则进行信息抽取的,所以本文还着重说明了正则表达式和规则定义,介绍了正则表达式的基本语法、规则定义格式以及自动产生抽取规则的算法等。我们还详细介绍了本系统的实现方法,包括各个主要部分的数据结构,流程图等。最后介绍了利用此系统对一些样本进行抽取后的结果并对结果进行了分析。
其他文献
视觉跟踪是计算机视觉中一个研究热点,它在很多领域都有应用,例如人机交互、安防监控、高级驾驶辅助系统等。基于检测的跟踪是视觉跟踪中的一个流行的框架,它利用机器学习中
课题来源于大庆油田测试技术服务分公司,主要任务是开发原油中转站计量系统,并以软测量技术为中心对提高原油含水率的估算准确度进行有关的理论和应用研究。软测量技术为工业
市民卡数据共享交换平台是北京市科委立项的项目,市民卡数据交换平台系统依托于北京市民卡工程,通过制定数据标准及数据交换标准,建立市民卡数据共享中心的数据交换系统,实现与劳
随着城市整体发展速度的不断加快,日趋紧张的交通问题给人们带来了巨大的效率,能源和生命上的损失。为了有效得改变现状,智能交通系统作为主要的解决方案开始受到各界关注,从而迅
随着计算机和互联网的普及,人们越来越习惯于通过互联网来获取和传播信息,同时,由于国际化的需要,越来越多的文档、网页采用多种语言的形式在互联网上传播。互联网是一个日益增长
目前,Web服务逐渐普及,网格计算方兴未艾,移动无线网络逐步推广,在这些并发、分布和移动环境下,对事务处理的模型、语言和原型的研究正在展开.越来越多的电子商务和科学应用运行在
随着基于数据仓库的数据挖掘和OLAP被越来越多的人研究和应用,信息愈来愈显示出其重要性和支配力,为了对信息进行存储和再加工,更好的支持决策系统,信息仓库的概念应运而生,它把管
下一代互联网的特点是更大、更快、更安全,网络安全已成为左右网络发展的关键因素。IPv6是下一代互联网的核心网络层协议,对下一代互联网安全的研究也将主要围绕IPv6本身及特点
虚拟现实技术在计算机仿真、数字地球和游戏娱乐等领域都有广泛的应用。这些应用不仅要生成高度真实的复杂虚拟环境,而且用户要和虚拟环境进行互动,增强交互性和沉浸感。使人
软交换技术是近年发展起来的一种新的呼叫控制技术,已经逐渐成为电路交换向分组交换演进的主流技术。随着下一代网络(NGN)概念的提出,国内外对软交换的研究达到了高潮。下一