论文部分内容阅读
随着信息时代的发展,人们对互联网的依赖性日益增强,越来越多的人在社交网络上发表自己的看法或者记录自己的生活,所以基于社交网络的分析研究日趋活跃。基于社交网络的事件检测能够在第一时间发现现实生活中发生的事件,有利于增强突发预警、舆情监控等方面能力。事件要素提取通过对事件文本进行分析,提取事件相关的人物、地点、时间等信息,便于人们更加直观的了解事件,掌握事件中的核心信息。现有的事件要素提取可分为模式匹配和统计学习两类方法,其中模式匹配的方法通过制定规则对文本内容进行匹配,通常只适用于特定领域,且规则制定成本较高,因此在实际中难以大规模应用;统计学习方法通过识别事件文本中的命名实体来提取事件中的人名、地名、时间等信息,但现有命名实体识别方法普遍存在识别种类过多导致准确率不高的问题,且对高噪声环境的社交网络短文本识别效果不理想,因此也很难获得准确的事件要素信息。本文对社交网络中的事件要素提取方法进行研究,重点考虑时间要素与地理位置要素提取,主要贡献与创新有以下两个方面:(1)提出基于模型约束的时间要素提取方法。该方法克服了传统命名实体识别方法提取特征没有针对性的问题,根据社交网络中时间要素的特点增加了特征集合,同时在运用条件随机场模型进行识别的过程中,针对学习速度过慢以及边界识别问题不准确等问题,构建了有约束的条件随机场模型,经过实验数据测试,本方法能够提高识别时间要素的准确率,从而提高了模型的综合表现。(2)提出基于文本句法特征的事件地理位置要素提取方法。该方法首先构建了地名实体与事件地理位置要素的一致性模型,从事件的推文集合中提取了候选集合;其次在提取过程中,为解决样本不均衡问题,通过对样本进行加权的方法提高了识别准确性;最后,本文以一致性概率为权重,在候选集中提取地点作为事件地理位置要素,再将提取的地名实体映射为GPS进行可视化对比,论证了方法的准确性。