论文部分内容阅读
每当有突发事件发生,其信息几乎占据了互联网的热搜榜首。及时从大量网络信息中获取突发事件关键信息,成为网络舆情监测预警中亟待解决的问题,也催生了信息抽取的应用前景。突发事件网络信息抽取主要存在如下几个方面问题:(1)新增未登录词影响了命名实体识别的性能;(2)描述事件的属性信息特征较难获取;(3)事件信息展示方式较为单一,综合程度不高。深度学习和语义依存分析有望提升信息抽取的性能;GIS可视化可将不同数据综合展示。本文研究了突发事件网络信息抽取和可视化技术,主要研究成果如下:(1)研究了命名实体识别。突发事件网络信息中包括很多新增未登录词,对命名实体识别的性能产生较大影响。本文利用FastText词向量的N-gram特性,提出了基于BiLSTM和CRF的中文命名实体识别方法。首先,将数据以字符为单位进行分词,利用FastText工具生成词向量;然后,将词向量输入BiLSTM神经网络,提取全局特征;最后,根据输出的特征序列,采用CRF选取出概率最大的标注序列,实现命名实体识别。实验结果表明,该方法可以提升未登录词的识别效果,提升命名实体识别的性能。(2)研究了突发事件属性信息抽取。目前属性信息抽取的研究主要集中在标注语料库,开放域语料库的抽取性能较差。本文提出了基于语义依存分析和规则模板的属性信息抽取方法。首先,从各个文档中抽取属性信息表达式,构成属性信息集合;其次,生成属性信息表达方式对应的规则模板;再次,利用语义依存分析补充规则模板,实现属性信息抽取;最后,将抽取的属性信息与正确的属性信息进行比较,调整规则模板,完善事件属性信息抽取。实验结果表明,该方法有效提高了突发事件属性信息抽取的性能。(3)研究了突发事件GIS可视化。图表可视化无法详尽表达突发事件信息,从而影响了对整个突发事件的掌控。本文设计了基于GIS的突发事件可视化方法。首先,调用Google Map API将地理位置映射为地理坐标;然后,将属性信息在地图上分层展示;最后,整合所有分层数据,实现GIS可视化。实验结果表明,该方法能够生成比较清晰的可视化展示,有效地呈现了突发事件关键信息。