【摘 要】
:
事件抽取是信息抽取中的一个较为复杂的课题。在实际的工业管理软件领域中,事件抽取在处理客户投诉等工作中具有极高的应用价值,能够帮助企业实现产品的快速更新迭代和保持用户粘性。事件抽取不仅是目前自然语言处理的研究热点和难点,也在知识图谱相关任务中发挥着重要作用。事件抽取的任务目标是将非结构化的自然语言文本进行结构化的处理,从中自动抽取用户所需要和关注的事件信息并进行存储。目前BERT为代表的预训练模型能
论文部分内容阅读
事件抽取是信息抽取中的一个较为复杂的课题。在实际的工业管理软件领域中,事件抽取在处理客户投诉等工作中具有极高的应用价值,能够帮助企业实现产品的快速更新迭代和保持用户粘性。事件抽取不仅是目前自然语言处理的研究热点和难点,也在知识图谱相关任务中发挥着重要作用。事件抽取的任务目标是将非结构化的自然语言文本进行结构化的处理,从中自动抽取用户所需要和关注的事件信息并进行存储。目前BERT为代表的预训练模型能很好地处理多项NLP任务,但在事件抽取相关任务中的效果还有待进一步提升。如何提升事件抽取模型的性能,打破独立文本处理的局限性,提升开放域事件抽取的效果,是研究者们面临的重大挑战。本文对事件抽取任务进行了研究,在预训练模型上进行改进并将其应用到实际场景中,主要工作如下:(1)本文将Ro BERTa-wwm作为基线模型,针对触发词提取任务和论元提取任务分别做出改进。在触发词提取模型中利用标注数据构建触发词知识库,在触发词提取任务中将句子中的词与知识库中的触发词进行匹配,将匹配结果作为额外的文本特征进行模型训练,从而提高触发词提取的效果。在论元抽取中采用条件Layer Normalization来控制Transformer的生成行为,将各词到触发词的相对距离作为特征,将触发词作为Layer Normalization的条件输入,让整个句子融入触发词的语义信息,从而提高论元抽取的效果。(2)针对事件抽取领域数据集比较匮乏的问题,本文在实验中采用两个公开的开放域数据集,在实际应用场景中采用的是来自企业投诉的自制数据集,并使用同义词替换的方式进行数据增强。本文通过对比实验,对模型的改进和数据增强的有效性进行了验证和评估。(3)改进模型采用PGD对抗训练算法,同时在训练平滑阶段采用随机权重平均(SWA)优化方法,来提高模型的鲁棒性和泛化性能,并用对比实验加以证实。(4)将改进模型从开放域迁移到特定领域,进行模型迁移前后的对比实验,分析模型迁移的效果。(5)本文将事件抽取技术应用于某车辆配件企业客户关系管理平台中,对收集到的非结构化的客户投诉数据进行事件抽取,提取出结构化的事件信息,自动填写事件信息表单并以知识图谱的形式展示。通过此应用,售后部门可以高效地处理客户投诉,研发部门能够针对反馈意见及时进行技术改进和产品更新,从而实现本文的应用价值。
其他文献
现代社会是一个合作共享的社会。为了实现互惠互利,越来越多的企业开始选择将数据进行共享,以求实现更加方便快捷的合作。此外,随着云技术的发展,越来越多的企业也选择将数据存放到云数据库中,来避免本地部署的高额代价,从而高效的实现数据共享。然而,数据共享的各方之间并不一定是互相信任的。参与的角色无法得知数据是否遭受篡改,也无法准确定位做出恶意行为的实体。区块链的出现似乎为数据共享提供了一个可行的方案。由于
随着科学技术和自动控制理论的不断发展,变风量(Variable Air Volume,VAV)空调控制系统的研究也愈加深入。控制技术的不断改进是VAV空调稳定运行的前提,因此需要在冷冻水系统中采用合理的控制方式。VAV空调的负荷具有复杂的多变性,当空调处于部分负荷的工况时,冷冻水系统常在小温差、大流量的条件下运作,从而一定程度上导致能量的浪费,增加了冷冻水系统运行的不稳定因素。若使用现代变流量技术
随着互联网的普及和计算机技术的发展,如何从海量的信息中快速获取关键信息已经成为了学术界亟待解决的重要问题之一。因此从中文新闻中抽取关键信息有着重要研究意义,同时也是论文的研究重点。论文从实体抽取、事件抽取、摘要抽取三个方面研究了中文新闻要素抽取技术。针对中文新闻要素抽取过程中存在的问题,论文进行了以下研究:(1)论文提出了一种基于词汇增强的实体抽取方法,解决了传统中文命名实体识别模型中仅使用字符向
随着钢筋混凝土结构不断向高层、大跨、重载的方向发展,工程界对钢材的材料性能提出了新的要求:更高的强度、更好的延性、更强的耐腐蚀性能、更低的成本以及节约资源、节能环保等。与普通钢筋相比,高强钢筋不仅具有更高的屈服强度,而且高强钢筋的使用对于节约资源、降低造价具有重大意义。但目前使用的高强钢筋普遍存在强度提高,延性降低的问题,并且耐腐蚀性能与普通钢筋相比并未得到改善。NPR钢筋是一种新型高强、高延性、
随着工业设备的复杂程度不断提高,运用基于数据驱动的方法通过振动信号数据对设备的关键部件如轴承、齿轮箱等进行故障诊断,保证设备平稳运行,在工业生产中尤为重要。近年来,深度学习模型在设备故障诊断任务上得到广泛应用,然而在实际工业环境中的设备和工况下所采集的故障数据具有样本少、不均衡的特点,极大地降低了深度学习模型的故障诊断表现。为了解决以上问题,本文的重点工作如下:(1)设计并实现了基于半监督学习的故
绘画可以成为科学研究的重要来源,许多学科的研究人员会从画作的各个方面提取所需要的信息,这些学科包含了艺术、经济、历史、文学、政治等等。然而绘画并没有广泛地应用于由心理学、神经科学和行为经济学的实验中。绘画虽然是一种类似于按下键盘或者填写问卷的行为输出,但是用传统的方法很难对绘画的主观表现和艺术表现进行客观的衡量也是事实。此外,作为行为实验的典型参与者,普通人并不具备基本的绘画技巧,这使得他们的画作
随着记录移动对象多维运动状态的传感器技术的发展,产生了大量的运动行为轨迹数据。通过衡量这些轨迹数据的相似性,对研究不同移动对象之间的运动行为模式有重要意义。尽管已经出现了大量的轨迹相似性算法,但是他们普遍存在以下几个缺点:他们大多数都被限制在移动对象运动路径的静态几何曲线上,只有很少的工作将移动对象的轨迹运动参数考虑在内,在多维复杂的研究场景中,单靠空间相似性不足以判定移动对象之间是否存在相似的运
马尔科夫跳变系统是由多个子模态构成的具有随机切换规则的系统,它能够很好地描述具有随机参数变化的系统,如内部元件故障和工作点变化。而半马尔科夫跳变系统作为一种更为一般的系统,其驻留时间并不完全遵循指数分布,还可以遵循Weibull分布、Gaussian分布等非记忆型分布。线性变参数(LPV)系统通过引入实时可测参数可以很方便地描述物理系统的时变特性和非线性特性,并且广泛应用于导弹自动飞行、涡扇发动机
<正>坚持党的领导,加强党的建设,是国有企业的“根”和“魂”,是我国国有企业的光荣传统和独特优势。党的二十大报告对党的建设作出新部署、提出新要求,在守正创新中深化了对建设长期执政的马克思主义执政党自身建设的规律性认识,实现了马克思主义建党学说中国化时代化的理论创新与实践创新。新时代新征程上,国有企业党组织以党的二十大精神为指引,深入学习践行党的建设理论创新成果,统筹实施铸魂工程、领航工程、固本工程
青岛是一座文化底蕴深厚的城市,经历过三次帝国主义列强的殖民,留下了大批“红瓦坡顶形态”的西方传统居住建筑,坡屋顶的建筑形式渐渐成为了这座城市的标识。但随着城市建设步伐的加快,曾经主导城市风貌的建筑屋顶形式逐渐在城市建设中消失,导致历史城区内殖民时期居住建筑屋顶形态的对外延展,呈现断层模式,新旧建筑之间缺乏过渡,整体定位模糊。加之国务院等相关建设部门出台了一系列政策,引导旧城的更新方向,以保护与延续