面向领域的多源数据文本实体识别与关联发现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:y810417
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
应急管理领域是与国家安全及社会稳定密切相关的重要领域,利用人工智能相关技术自动发现和识别领域多源数据文本中有价值的情报信息,如领域核心实体及其语义关联,对于突发事件预警及响应有着重要指导意义,而实体识别与实体间关联发现正是可以自动化实现领域信息抽取的关键技术。但是,领域实体识别与关联发现技术当前仍面临以下挑战:首先,中文文本缺少分词边界且词法、语法复杂,导致词特征利用困难,限制了实体识别的效果;其次,领域标注集缺失且人工标注成本高,主流模型无法基于全监督方法得到充分训练;最后,领域信息的稀疏性与特异性也导致了实体关联发现的效率与精度均较低。针对上述问题,本文分别有针对性的实现了以下改进:(1)针对中文词信息利用困难的问题,提出了基于字词自适应结合的实体识别模型。该模型先利用卷积神经网络实现字符窗口信息感知,再与潜在词间计算多头注意力,自适应的完成中文字词信息结合;同时,还通过与中文预训练模型组合引入大规模先验知识。最后,在ResumeNER和weiboNER两个主流评测集上验证了其识别效果,与最好的基线模型FLAT相比,识别F1值分别提高了 0.32%和0.6%,引入中文预训练模型RoBERTa-wwm之后,识别效果又实现进一步提高。(2)针对领域实体人工序列标注成本高的问题,提出了基于远程监督的领域实体识别与扩充框架,该框架利用词典远程监督流式标注得到训练集,并结合PU-Learning算法训练本文提出的基础模型CWAl-R,节省了大量人工标注的成本,又引入了教师-学生模式的自训练实现训练语义的泛化。最后,利用ResumerNER评测集的人名、机构名、专业名进行了领域实体识别验证,识别F1值相比基于人工序列标注的全监督基线模型仅下降了 2.2%,证明了其在无需人工标注的前提下依然可以实现较好的识别效果;还利用应急管理领域数据集对武器类实体进行了实体扩充验证,实体扩充率和扩充准确率分别达到了 107.4%和81.3%。(3)针对采集数据中非领域噪声多,实体间关联表述领域性强等问题,本文提出了基于RoBERTa-wwm的多源实体关联发现框架,该框架第一部分为基于Fasttext的领域语义判别器,可以实现对非领域噪声文本快速预筛;第二部分为基于RoBERTa-wwm的实体关联发现模型,该模型通过RoBERTa-wwm自适应完成字符语义计算,再通过卷积神经网络完成窗口信息提取,最终基于实体信息、实体间语义依存信息及全局语义信息共同完成实体间关联的推断。最后,在本文构建的应急管理领域数据集上进行对比实验证明,领域语义判别器的F1值仅比选用的最佳基线模型BERT-cls低0.4%,但其判别速度同在cpu环境下是后者的近三千倍,即使将后者迁移至gpu环境下,判别速度依旧只是前者的1/500不到;基于RoBERTa-wwm的实体关联发现效果也优于所选用的基线模型。最后,基于上述改进开发了应急管理领域信息抽取系统,该系统可以自动化地实现信息采集,领域信息判别,实体识别及实体关联发现。经测试,该系统自动化程度及分析精度均较高,满足了领域需求。
其他文献
随着物联网、云计算、5G网络等新型技术的快速兴起,网络规模的不断扩大,传统的网络架构面临着巨大压力和挑战,出现了如设备固化严重、维护复杂、扩展性有限、新业务开发周期长等问题,因此需要新的技术对当前网络架构进行升级。SDN(Software Defined Network)技术的快速发展打破了该局面,为网络技术的革新提供了思路。SDN将网络分为控制层和数据转发层,集中管理底层网络设备,实现网络的可编
在后疫情时代,生鲜产品线上需求增长迅速.根据调查发现: 配送速度和生鲜质量已经成为消费者选择生鲜电商平台时重要的影响因素.在此基础上,将货损成本加入形成生鲜电商前置仓选址目标,以中心仓、前置仓及其覆盖区域形成的运输网络配送距离和配送过程中的货损成本作为约束条件,构建前置仓选址模型,并用Excel规划求解得到结论.最后,通过一个实例来说明模型的可行性.
VoLTE是在4G网络全IP条件下的端到端语音解决方案,能提供更短的接入时延和更好的语音质量.以复兴号为代表的高铁列车运行速度快、车体损耗高,这样的无线环境对时延、抖动、丢包敏感的VoLTE业务质量有很大的影响.本文介绍了针对高速铁路网络服务的特点在4G Volte业务及四项感知指标方面,为满足高铁用户高质量服务需求而进行的端到端感知提升的分析研究、基本思路、优化方法及经验.
在“碳达峰、碳中和”的国家战略背景下,控制碳排放成为各地发展经济的前提条件.县域是中国社会经济发展的基础单元,统筹县域经济发展和碳排放的关系对中国实现控碳战略具有重要意义.基于中国172个县级单元的经济发展和碳排放数据,采用线性回归模型分析法,对中国县域经济发展对碳排放的影响进行了分析.研究发现:一、县域碳排放总量与经济总量和工业化水平高度正相关,经济发展水平的提高有助于提升碳生产力,降低碳排放强度;二、县域内工业的集聚有助于降低碳排放强度,但服务业的聚集将会导致县域碳排放水平的上升.基于此,建议在县级国