论文部分内容阅读
突发事件以其突发性、破坏性时刻威胁着社会的安康稳定,突发事件舆情更是考验着相关部门的应急管理能力与执政水平。当今社会,互联网给予了每个人话语权,逐渐成为事件舆论的主要阵地。这使得互联网蕴含着大量有价值的突发事件相关知识,然而这种战略性资源却没有得到有效的挖掘与利用。知识库作为一种管理知识的工具,能够实现对海量知识的高效管理,有效缓解“海量信息”与“知识匮乏”的矛盾问题。现有的知识库大多数面向通用开放领域,针对特定领域的知识库则需要专门构建。本文面向突发事件领域,构建互联网突发事件知识库,为突发事件相关知识的挖掘、存储与管理提供一种新的思路。主要研究内容如下:(1)突发事件数据采集与处理。利用Python网络爬虫,结合Selenium自动化工具、Scrapy框架,采集新浪微博和百度贴吧两个社交网络平台上的突发事件信息,形成初步的事件信息库。对采集的源数据进行数据清洗、中文分词、停用词过滤等一系列预处理操作。制定基于事件句的数据选择策略以选择出优质数据,使用BIO标注体系对突发事件的涉事对象进行标注,形成包含涉事人员(PER)、涉事组织机构(ORG)两类实体以及非实体(O)的标注数据集。(2)突发事件的涉事对象识别。以识别涉事人员、涉事组织机构两类突发事件涉事对象为目标,训练基于word2vec字向量的BiLSTM-CRF模型。实验表明,与随机初始化字向量相比,嵌入预训练的字向量提升了模型的识别效果。同时,与单一的HMM、CRF、BiLSTM几种模型相比,基于word2vec字向量的BiLSTM-CRF模型的总体识别率也较高。此模型在突发事件涉事对象的识别上具有良好的效果。(3)突发事件知识库构建及可视化系统实现。突发事件知识库包含事件信息库和涉事对象库两个子库,事件信息库为基本库,主要包含网络爬虫采集到的事件数据;涉事对象库为扩展库,主要包含算法提取出的涉事对象信息。为了提高知识获取的效率,搭建了互联网突发事件知识库可视化系统,展示了事件基本信息、事件舆情信息、涉事对象信息等知识模块。通过各个模块的知识管理功能,实现对知识库的维护与优化。本文在互联网上采集了突发事件数据并进行一系列的数据预处理操作,训练模型以识别突发事件中的涉事对象,并人工干预构建了涉事对象关系图,最终构建了包含事件信息库和涉事对象库的突发事件知识库,并搭建了突发事件知识库系统以对知识库进行可视化。