面向气象灾害领域短文本的事件抽取算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ylfly5257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
台风、暴雨等气象灾害给民众的生产生活带来了诸多不良影响,然而现有气象灾情收集工作存在人工成本高且覆盖度不足的问题。如果能从微博及新闻数据中挖掘灾情相关信息并结构化其事件表述,则可以提供实时、广覆盖的灾情监控,对灾情分析提供数据支持。为此本文基于微博短文本构建气象灾害领域事件抽取数据集,在此基础上分两步完成事件抽取。首先基于微博短文本完成事件检测确定事件触发词及事件句类型,然后基于事件触发词进行事件论元角色的抽取,确定事件组成要素。此前的中文事件检测方法主要依赖序列建模并以词典增强形式解决触发词歧义性,忽视了触发词的稀疏性特点和句中其他实体的潜在消歧作用。此外,现有的中文论元角色分类方法以阅读理解和片段建模解决论元角色重叠性问题,但对语法知识关注不足,且触发词语义融入方式较为单一。为此本文分别研究基于实体感知与指针解码的事件检测方法和融合语义及语法特征的论元角色分类方法。本文先研究基于实体感知增强及指针解码的中文事件检测方法。该方法通过挖掘触发词周围实体的语义信息构建可插拔式的实体感知增强编码,以解决触发词的歧义性问题。随后基于首尾指针学习触发词的边界表征,并通过区间感知层进行实体边界信息的深层交互,从而将事件检测任务转化为词的首尾区间检测任务,提升触发词识别的精度。在气象灾害短文本数据集上的结果显示,本文提出的模型相较于基准模型取得了更优的结果。在F1评价指标上,事件检测性能提升了1.1%。在中文事件论元角色分类任务上,本文提出了融合语义及语法特征的指针式论元角色抽取方法。该方法通过多头自注意力机制与触发词层归一化构建语义编码模块用以增强文本语义感知。此外,为了解决句法信息的粒度不适配问题,该方法基于词性标签进行句法信息学习,并结合图卷积模块完成语法特征提取。实验结果表明,本文提出的模型相比基准模型有明显的指标提升。在气象灾害短文本数据集上论元抽取及角色分类的F1指标分别提升了1.4%及1.2%。
其他文献
受伤后失血休克的处理原则是尽早输血治疗防止凝血因子的稀释而不能正常凝结。输血中所需的红细胞,除了捐献者新鲜的血液外,大多来自血库低温存储的库存血。无论是低温储存还是冻存,红细胞的储存损伤使得红细胞质量退化,细胞老化,在临床上输血后会有较高的致死风险。本研究围绕红细胞长时间储存质量监控和输血安全的重大需求,建立离体储存红细胞变形性的光学检测方法,为红细胞储存条件筛选和长期储存红细胞的质量监控提供技术
学位
随着现代科技的不断发展进步和人们生活水平的改善,消费者对饮食质量和健康状况的追求日益提高,对动植物食品的冻融方式和新鲜品质提出了新的要求。但是肉与肉制品中富含蛋白质营养成分,且水分活性较高,在冻结解冻过程中会造成食物品质的腐败变质,特别是因水分渗透性的损失,蛋白质变性和物理损伤等都会引起食品在质构,味道和颜色方面发生明显的变化,这不仅导致经济上的损失和环境污染,更严重的是危及人们的生命健康。本论文
学位
超短期风功率预测是风功率预测的重要研究内容之一。随着风电产业的发展,风功率预测经历了数十年的研究,在中长期预测任务中取得了较大的进展,而超短期预测任务由于其对预测的时间粒度要求较高,且国家规定的指标较严,一直是风功率预测的一大难题。同时,超短期预测的准确性又关乎着国家的电网安全,是一个重要而又充满挑战的实际问题。对于超短期风功率预测的研究,目前主流的方法仍是使用时序数据建模分析或结合单点NWP气象
学位
目标跟踪作为计算机视觉的一个基本问题,近年来得到了广泛的研究和应用,发展十分迅速。其任务是利用图像序列中的信息,在给定目标初始状态的情况下预测目标后续的运动状态。目前,基于可见光图像的目标跟踪方法已经在VOT、La SOT等数据集上取得了很好的效果。然而,可见光目标跟踪方法在光照不足的场景下无法正常工作,此时能够全天候工作的热红外目标跟踪方法可以发挥重大作用。现有的热红外目标跟踪方法主要基于孪生网
学位
研究一lncRNA GAS5、NEAT1、H19和MALAT1与系统性硬化症的相关性研究目的:探讨系统性硬化症(Systemic Sclerosis,SSc)患者外周血单个核细胞中GAS5、H19、NEAT1和MALAT1的相对表达水平与其临床症状之间的相关性。材料与方法:采用病例对照的研究方法,纳入的61例SSc患者和122例健康对照(Healthy controls,HC)。问卷调查收集SSc
学位
近年来,舆情事件预警已成为金融风险管控的核心任务之一。为了更加精准地分析事件的影响,需要将事件的类别进行详细地划分,这就导致金融领域的舆情事件类别繁多。一方面,由于事件本身的长尾特性,某些事件发生的频度很低,样本稀少,但这些低频事件带来的损失更加难以预测。因此,及时准确地发现这些少样本事件、尽可能减少“黑天鹅”事件带来的损失,对管控金融风险至关重要。另一方面,金融事件主体关联等特征的普遍性使得高频
学位
水凝胶是一种亲水性网状高分子聚合物,具有生物相容性、柔性、离子导电性等优良特性。通过将水凝胶作为设备和机器的关键部位所制备的水凝胶器件(如水凝胶传感器、水凝胶驱动器等)被广泛应用在药物运输、组织工程、生物研究等领域。目前以水凝胶为关键部位的所制备的器件有柔性机器人、可穿戴诊疗设备、组织胶水等,为生物医学领域开辟了一个全新的重要的技术研究领域。基于此,本文围绕水凝胶驱动和传感机理及实现对所制备的微型
学位
红细胞储存在液体悬浮介质中用于输血已有九十余年历史。在临床手术中,输注悬浮红细胞对于各种症状严重或大出血的患者是一种有效的治疗手段。然而,红细胞在低温冷藏数周后会发生储存损伤,它们的生化特性和物理结构都会发生变化,其形态从具有双凹结构的盘状逐渐转化为球形。若给患者输注这种血液,会引发大量疾病,如内脏的局部缺血等。因此,了解红细胞在储存过程中的形态变化是非常重要的。本文的研究工作从人体活体血红细胞形
学位
目的探究合肥市气象因素及臭氧(O3)与过敏性皮肤病的关联以及在疾病分型、不同人群和季节的差异,从而为降低过敏性皮肤病的患病风险以及患者的自我管理提供科学的参考依据。方法从安徽医科大学第一附属医院和中国科学技术大学第一附属医院收集在2015年1月1日到2019年12月31日期间就诊的过敏性皮肤病患者数据,并收集同期气象因素和大气污染物数据。首先,使用Spearman秩相关分析初步探索气象因素与过敏性
学位
研究背景及目的系统性红斑狼疮(systemic lupus erythematosus,SLE)是一种以自身抗原免疫耐受性丧失为特征的慢性炎症性疾病,多见于育龄期女性。前期研究表明长链非编码RNA(long non-coding RNA,lnc RNA)参与SLE的发病,而lnc RNA肺腺癌转移相关转录子1(metastasis-associated lung adenocarcinoma tr
学位