论文部分内容阅读
计算机应用的普及和互联网的飞速发展带来了信息爆炸,大量信息以电子文档的形式出现在人们面前,人们迫切希望计算机能对出现的文本信息实现自动化处理。因此,需要有效地利用信息处理的工具。信息抽取是解决这一问题的有效途径。信息抽取的主要任务之一就是实体识别。
ACE评测首次提出了实体提及识别任务,目的在于识别指定类型实体的所有提及,包括命名性提及、名词性提及和代词性提及,并考虑它们在结构上的嵌套特性。实体提及识别任务同传统的命名实体识别有着密切的联系,但不仅仅局限于命名实体识别。因此,ACE评测的实体提及识别任务对实体识别提出了更高的要求,同时也在更大的程度上推动了实体识别和信息抽取技术的发展。
本文从理论和实际出发,针对中文实体提及的特点,利用条件随机场模型的特征融合的能力,提出了一种基于条件随机场模型针对中文文本中实体提及进行识别的方法。综合运用字词特征、前后缀特征、同义词特征、词典特征和语义特征提高系统的识别性能。与此同时,本文还提出了一种基于条件随机场模型针对英文设施名进行识别的方法。综合运用字词特征、词类特征等提高系统的识别性能。实验结果表明对于本文所提出方法对于中文实体提及识别和英文设施实体提及识别都具有一定的效果。