论文部分内容阅读
应急管理领域是与国家安全及社会稳定密切相关的重要领域,利用人工智能相关技术自动发现和识别领域多源数据文本中有价值的情报信息,如领域核心实体及其语义关联,对于突发事件预警及响应有着重要指导意义,而实体识别与实体间关联发现正是可以自动化实现领域信息抽取的关键技术。但是,领域实体识别与关联发现技术当前仍面临以下挑战:首先,中文文本缺少分词边界且词法、语法复杂,导致词特征利用困难,限制了实体识别的效果;其次,领域标注集缺失且人工标注成本高,主流模型无法基于全监督方法得到充分训练;最后,领域信息的稀疏性与特异性也导致了实体关联发现的效率与精度均较低。针对上述问题,本文分别有针对性的实现了以下改进:(1)针对中文词信息利用困难的问题,提出了基于字词自适应结合的实体识别模型。该模型先利用卷积神经网络实现字符窗口信息感知,再与潜在词间计算多头注意力,自适应的完成中文字词信息结合;同时,还通过与中文预训练模型组合引入大规模先验知识。最后,在ResumeNER和weiboNER两个主流评测集上验证了其识别效果,与最好的基线模型FLAT相比,识别F1值分别提高了 0.32%和0.6%,引入中文预训练模型RoBERTa-wwm之后,识别效果又实现进一步提高。(2)针对领域实体人工序列标注成本高的问题,提出了基于远程监督的领域实体识别与扩充框架,该框架利用词典远程监督流式标注得到训练集,并结合PU-Learning算法训练本文提出的基础模型CWAl-R,节省了大量人工标注的成本,又引入了教师-学生模式的自训练实现训练语义的泛化。最后,利用ResumerNER评测集的人名、机构名、专业名进行了领域实体识别验证,识别F1值相比基于人工序列标注的全监督基线模型仅下降了 2.2%,证明了其在无需人工标注的前提下依然可以实现较好的识别效果;还利用应急管理领域数据集对武器类实体进行了实体扩充验证,实体扩充率和扩充准确率分别达到了 107.4%和81.3%。(3)针对采集数据中非领域噪声多,实体间关联表述领域性强等问题,本文提出了基于RoBERTa-wwm的多源实体关联发现框架,该框架第一部分为基于Fasttext的领域语义判别器,可以实现对非领域噪声文本快速预筛;第二部分为基于RoBERTa-wwm的实体关联发现模型,该模型通过RoBERTa-wwm自适应完成字符语义计算,再通过卷积神经网络完成窗口信息提取,最终基于实体信息、实体间语义依存信息及全局语义信息共同完成实体间关联的推断。最后,在本文构建的应急管理领域数据集上进行对比实验证明,领域语义判别器的F1值仅比选用的最佳基线模型BERT-cls低0.4%,但其判别速度同在cpu环境下是后者的近三千倍,即使将后者迁移至gpu环境下,判别速度依旧只是前者的1/500不到;基于RoBERTa-wwm的实体关联发现效果也优于所选用的基线模型。最后,基于上述改进开发了应急管理领域信息抽取系统,该系统可以自动化地实现信息采集,领域信息判别,实体识别及实体关联发现。经测试,该系统自动化程度及分析精度均较高,满足了领域需求。