领域信息抽取相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wuhuizuizong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及以及互联网的迅猛发展,大量信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们从海量信息源中迅速找到真正需要的信息。信息抽取研究正是在这种背景下产生的。信息抽取的目的是将无结构的文本转化为结构化或者半结构化的信息,并以数据库的形式存储,供用户查询以及进一步的分析利用。本文围绕信息抽取的三项基本任务:命名实体识别、关系抽取、事件抽取开展工作,在命名实体识别的基础上进一步研究了关系抽取与事件抽取,并实现了一个完整的中文领域信息抽取系统。本文采用基于规则/模式匹配的方法进行信息抽取,并针对不同的任务采用不同的规则/模式获取方法。本文的成果与贡献主要体现在以下几个方面:1.领域实体识别:领域实体识别的任务是识别与特定领域相关的一些命名实体项并赋予其词性。本文采用基于指示词的规则匹配的方法进行领域实体识别,并根据领域实体列表自动学习得到领域规则集合,根据训练语料自动扩展领域知识。2.领域事件抽取。本文针对特定领域的事件信息,采用在命名实体识别的基础上基于模式匹配的事件抽取方法。本文通过对模式实例进行聚类,然后对每一类模式实例分析得到候选模式,对候选模式集合进行合并获取领域事件模式。3.领域关系抽取。本文针对特定领域的人员职位变动关系,采用基于关系模式匹配的方法进行领域关系抽取,并使用“模式动作”模板库对抽取结果进行语义分析与矫正。本文提出基于Bootstrapping的方法根据种子集合自举来获取关系模式集合。
其他文献
图像的呈现,是指图像内容的组织、变换与展示。良好的图像呈现形式有助于信息的展示、气氛的渲染和情绪的表达。面向不同的问题,一些图像呈现技术,例如拼贴图(Collage)、镶嵌
大幅面专业扫描仪有着广阔的市场前景与研究价值,利用各种手段实现其高性能、高质量扫描一直是追求的目标。本文结合传统多CCD结构的研究经验与实现方案,设计了一种基于嵌入
膜生物反应器(Membrane Bioreactor,MBR)是将膜分离技术与生物技术相结合并应用于污水处理领域的一项新兴技术。大量研究表明,MBR的能耗问题主要是由膜污染问题造成的。因此,研
医疗信息化的发展,诊断数据量的激增,需要结合数据挖掘技术进行深入分析,提取有潜在意义的知识。当前基于甲状腺功能减退症(简称甲减)的分类挖掘研究较少,只是纯粹地从医疗分
机器学习及相关算法是近年来的研究热点,随着三维表面重建技术的逐渐成熟,在越来越多的领域的广泛应用。本文使用了机器学习方法中的RBF插值和径向基神经网络分别对表面重建
本论文重点讨论用图像分析法来进行疾病诊断。我们运用于演算法中的图像处理技术则集中在三种图像的分类和细分;这三种图像分别为纹理图像,遥感图像,医学图像。这些图像处理技术
消息中间件利用高效可靠的消息传递机制进行平台无关的数据交互,是分布式系统集成的关键技术。传统的消息中间件基于特定的平台或者开发工具,始终不能以一种松耦合的方式实现
组合优化是优化领域中的一个重要分支,最小生成树问题(MST)是一类经典的组合优化问题,并且在现实生活中具有广泛的应用,例如,通信网络、电路设计、管道铺设等方面,因此对这类
智能电网是建立在集成的、高速双向通信网络的基础上,通过先进的传感和测量技术、设备技术、控制方法以及决策支持系统的应用,实现电网的可靠、安全、经济、高效、环境友好和
随着科学技术特别是无线网络技术的飞速发展,人们的通信方式也发生着日新月异的变化。当代,移动网络通信已经渗入到人们工作生活中的每一个角落,人们已经无法脱离移动网络而