论文部分内容阅读
近年来世界各地突发事件频繁发生,给人类社会的安全和发展造成了巨大的威胁,引起了国内外学者和政府部门的高度关注。与一般事件相比,由于突发事件具有突然发生的特点,往往存在信息上的匮乏,从而导致决策依据不足、决策风险性加大、事件处理难度增加等问题。对突发事件信息进行结构化抽取,建立突发事件典型案例库是提升突发事件应对能力的有效手段。因而,构建面向突发事件案例库的事件抽取模型实现案例信息的自动化抽取对于突发事件的应急决策具有十分重要的意义。为了使抽取模型能够更好地适用于构建突发事件案例库,本文首先对突发事件案例信息抽取过程中涉及到的突发事件案例信息、突发事件和突发事件抽取框架等问题进行界定:提出一个描述突发事件案例的四元特征向量模型,从案例类型、案例描述、解决方案、决策环境等方面对突发事件进行描述;根据突发事件类型的不同在每个特征维度下对事件要素分别进行确定;同时,基于这一特征向量模型构建带有继承机制的突发事件案例信息的抽取框架;然后针对抽取框架的不同侧面的特点,将侧面分为事件时间、事件地点、事件其他侧面三类,并分别对每一类信息的抽取方法和模式进行详细说明,具体为:1)时间类。根据突发事件相关文本中时间表达式的形态特点,提出基本时间要素概念,用来代指时间表达式中的基本组成成分。并对基本时间要素的匹配模式和组合规则进行总结和说明;针对时间表达式的标准化问题提出非数值时间数值化策略和时间块、模糊时间的数值化转换规则;利用时间文档位置、时间重要性等特征对事件的发生时间进行推断。2)地点类。针对突发事件相关文本分词后地理信息领域名词误识别、外国地名识别率低的特点,建立附加的领域词典、地名词典;针对地名语块识别能力不足等问题,提出基本地理要素概念,并对基本地理要素的抽取模式和组合规则进行总结和定义;针对地名的规范化问题建立地名数据库、地名-简称对照表,提出地名指代词消解策略;利用地点信息文档位置、地点信息重要性、地点信息关系等特征对事件的发生地点进行推断。3)其他侧面类。根据事件其他侧面与元事件的关系,将事件其他侧面的抽取转化为元事件的抽取,并对要抽取元事件类型进行定义。采用基于扩展触发词和知网语义相似度计算的候选事件抽取方法,根据不同侧面的特点分别采用基于模式和基于语义角色标注的方法对不同侧面进行抽取。4)事件归并。以地理信息和时间信息为特征,提出一种多文档环境下事件的归并判别方法和归并规则。经过在公共卫生类突发事件语料上进行实验,结果表明本文提出的抽取模型是可行的,对于突发事件要素抽取达到较高的准确率和召回率。