中文开放域事件表示学习方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mjsega
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件是世界的一种重要客观信息。随着信息化时代数据爆发式增长,如何在海量文本信息中自动挖掘并理解关键事件与知识等结构化信息对人工智能技术发展至关重要。开放域事件作为不限定事件类别的文本对象,相比于特定域事件来说,拥有结构形式更简单、信息特征更通用等特点。开放域事件的表示学习,对事件相似度评估、舆情归因和脚本事件预测等任务具有重要基础性作用。目前尚未有针对中文开放域事件的表示学习研究,相应地缺失中文开放域事件抽取算法以及表示学习性能评测集。对事件表示学习建模方面,除了事件本身结构与场景语义属性,事件外部的时序与关联特征均对提升事件表示的表征能力与在下游任务推理能力具有重要帮助。针对以上问题,本文从开放域事件抽取、捕捉事件内在语义属性与捕捉事件外部关联信息三个方面展开研究工作,提出了中文领域的开放域事件表示学习方法。本文首先提出一种基于语言特征规则的开放域事件抽取算法。算法实现了高效大规模的事件三元组抽取,避免了过程繁琐与成本高昂的人力标注流程,为后续算法研究提供必要数据基础。为更好捕捉事件本身的属性表征,本文提出一种预训练-微调流水线架构学习算法,在现有研究基础上引入事件上下文信息。使得事件表示单元同时具备捕捉事件间语义、事件内结构与事件外场景信息的能力,加强事件表示表征能力。在对事件表示表征能力评估中,引入上下文信息的事件表示学习算法在困难事件分辨任务的准确率与事件相似度等级任务的斯皮尔曼相关系数评测指标均取得优秀性能表现。相比主流基线模型大幅提升了事件嵌入向量的表征性能。为更好捕捉事件外部时序与关联信息,本文提出一种基于事件图的图神经网络事件表示学习算法。该算法首先基于时序事件链与事件共现关联构建全局语料开放域事件网络图,再通过下文事件预测自监督学习算法更新事件表示结构参数,加强事件表示在下游任务中推理能力。在对事件表示推理能力评估中,基于图神经网络的事件表示学习方法在候选事件填空任务中准确率相比最好基线模型提升5%。显著提升了事件表示在下游任务的推理性能。
其他文献
背景:缺血性脑部疾病是全世界人类死亡一个主要原因的疾病,随着年龄的增长,它发生的概率也越发增大。脑缺血/再灌注(I/R)损伤是指脑部缺血一段时间后再恢复血液供应而产生的损伤。当前,我们对于缺血缺氧性脑部疾病的具体机制尚未完全清楚,并且针对其治疗药物的开发也未有很大进展。有研究表明,Rho A-ROCK通路参与了缺血性脑损伤的病理过程,缺血性脑损伤可诱导Rho A激活,ROCK1和ROCK2表达和活
学位
区块链技术由于其去中心化、透明性、安全性、可追溯性、匿名性等众多特性,使着人们将区块链逐步深入应用到了物联网、金融、医疗、保险和物流等众多其他领域之中。但区块链本身的许多缺陷也依旧限制着区块链技术的应用前景。区块链的本质是网络中的所有节点共同参与的分布式账本。为了使所有平等节点参与并达成共识,区块链的性能表现有所不足,例如较低的交易处理速率。而影响所有节点达成共识所需时间的主要因素就是块传播延迟。
学位
随着云计算的快速发展,越来越多的用户将数据存放到云端,如何确保云服务器中的用户隐私数据的安全成为亟待解决的问题。属性基加密(Attributebased Encryption,ABE)能够实现一对多的加密而被广泛用于云存储技术中。与传统的ABE方案相比,基于确定性有限自动机(Deterministic Finite Automata,DFA)访问结构的ABE方案能够对任意长度的属性字符串进行运算,
学位
肝细胞癌(Hepatocellular carcinoma,HCC)是全球最常见的肿瘤之一。2020年国际癌症研究机构(International Agency for Research on Cancer,IARC)的数据显示,我国肝癌的发病率在所有癌症中排第五位,死亡率排第二位。目前,手术以及放化疗是治疗肝癌的主要方法,然而术后的高复发率和肿瘤的转移严重影响患者的治疗效果、预后以及生存期。而且
学位
中风仍然是全球卫生负担,约有1370万人患有中风及其并发症,如运动功能下降和神经行为变化,中风可分为缺血性中风和出血性中风,后者则不太常见。缺血性中风由脑动脉内形成的血块引起,可导致脑梗死和神经缺陷。虽然再灌注可以增加缺血区的血液供应,但会促进氧化应激和炎症的发生,导致神经元细胞进一步恶化死亡,这种现象被称为缺血/再灌注损伤(Ischemia/Reperfusion,I/R)。已有充分证据证明,炎
学位
背景脑肠轴是肠与中枢神经系统之间的双向连接通路。肠道健康和相关的肠道微生物群稳态不仅影响胃肠道环境,还影响大脑功能。然而,肠功能障碍致脑损伤加重的机制尚不清楚。缺血性脑中风是致死致残的主要原因。因此,探索缺血性脑中风的内在神经保护策略就显得尤为重要。硫化氢(hydrogen sulfide,H2S)是第三种气态分子,H2S一方面参与心脑血管系统的生理过程,另一方面,H2S在病理状态下在中枢神经系统
学位
目的:本研究旨在探究牡荆素对庆大霉素诱导的内耳毛细胞损伤的保护作用机制,为预防和治疗氨基糖苷类抗生素的耳毒性提供新的靶点和理论依据。方法:在体实验选用C57小鼠,腹腔注射庆大霉素与呋塞米联合给药10天,建立小鼠药物耳毒性模型;体外实验采用庆大霉素10mM处理HEI-OC1细胞24小时进行造模。通过ABR测试检测小鼠的听力阈值变化情况;鬼笔环肽染色检测小鼠内耳毛细胞缺失情况;透射电镜(TEM)检测内
学位
次级代谢物是通过复杂的次生代谢途径合成的各种结构复杂的化合物,包括维生素、激素、抗生素、生物碱以及毒素等,这些化合物与人们的生活息息相关。因此,对次级代谢物进行开发和改造,研究相关的合成途径以及合成过程中重要的酶催化机制,是非常有意义的。酶的功能和结构是密切相关的,酶的结构研究是揭示其功能的基础。本论文通过解析两种次级代谢物合成途径中关键酶的晶体结构,从原子水平上揭示了其具体的催化机制,为杀黑星菌
学位
结直肠癌(colorectal cancer,CRC)是最常见的癌症之一,据估计,2020年CRC增加了近200万的新发病例和近100万的死亡病例,约占新发癌症病例和癌症死亡人数的十分之一。由于可用于CRC临床筛查的靶点较少,多数患者确诊时已局部进展或发生转移,且治疗手段存在较多的局限性,治疗效果不佳,寻找CRC诊断与治疗的新靶点具有重要价值与意义。为了进一步研究CRC中潜在的分子治疗靶点,为CR
学位
近些年来,由于使用机器学习技术而聚合用户数据所造成的隐私数据泄露事件频发,而数据安全与隐私保护法律也日益严格,通过各种隐私保护工具防范机器学习过程中各类隐私泄露风险成为研究热点。同态加密技术允许在密文状态下执行特定的代数运算获得结果密文,将其解密后即可获得对明文进行相同代数运算的结果,非常适合云计算场景下的隐私保护机器学习方案。2017年Cheon等人提出的CKKS同态加密方案支持加密固定精度的浮
学位