论文部分内容阅读
随着信息传播技术的不断进步,信息传播方式也在不断发生变化,特别是Internet这一新媒体的发展和普及,人们的生活已经融入了这个信息大繁荣的社会大潮中。为了应对信息大爆炸,信息大繁荣这一社会现象,相应的自然语言处理技术亟待发展,给予大力支持。近几年来,各种类型的突发事件频繁发生,对人民的生活产生了极大影响,因此,人们对突发事件的关注程度也越来越高,每次突发事件的发生,都会有权威媒体的一系列的相关报道,收集这些信息,进行分析、处理,对于突发事件深入研究、预防都有一定帮助,同时也可以帮助人民大众从整体上把握事件发生、发展、结束整个过程,可以很好地帮助人们消防对突发事件的恐惧心理。信息抽取就是从相关的文档中将感兴趣的信息准确高效地抽取出来。本文在分析了信息抽取的研究背景及意义,发展状况,相关技术的基础上,对于目前中文信息抽取工作的不足之处,大多数中文事件抽取只是针对一篇文档进行事件抽取,本文以同一事件的多个文本为研究对象,提出一种使用模式匹配与统计学习相结合的方法来实现信息的准确抽取。本文以三类突发追踪事件作为研究对象,分析相关事件报道之间的连续性、多角度性等文本特点,通过确定每类突发追踪事件的信息抽取模板,采用模式匹配与统计学习相结合的方法对突发事件的相关文档进行信息抽取,并使用简单的语义推理技术融合该突发事件的相同方面的信息,最后将实验抽取结果时序显示出来。本文主要做了以下几个方面的工作:1.通过对同一个突发事件的多个文本的数据集进行统计、观察,深入分析突发事件新闻报道的自身特征及其与相关后续追踪报道之间的关系,最终找到可支持事件信息的有效特征,构建相应的事件抽取规则来实现对突发事件的相关方面信息的抽取并写入数据库。2.对于突发事件的追踪报道中抽取出来的同一个突发事件相同侧面的信息,构造对应的语义推理规则来实现信息的融合。3.针对追踪报道抽取结果中出现的一些异常规律的数据,给出相应的注释来解释出现这种情况的原因,形成突发事件的信息发展链,并以时序追踪的方式显示出来。实验结果表明,本文提出的针对突发事件追踪报道的信息抽取方法在同一事件多文本的抽取方面进行了初步的探索,并取得一定的效果。要高效地实现追踪报道的信息抽取,本文的研究还不够全面,可以引入中文信息处理的相关技术方法进一步进行研究。