低资源语言事件要素抽取方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:liunanr0306
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件是指事物状态的改变,简单来说就是某个动作的发生以及由此产生的一系列后果。事件包含多个描述事件发生以及状态改变的要素,例如事件发生的时间和地点、事件的参与者和后果等等。从文本中识别事件并提取事件要素以生成结构化的事件对象,在社会治理、舆情监控和情报收集等诸多领域具有广泛的应用。随着中国-东盟合作日益密切,使用计算机从海量的东盟语言文本中及时、准确地抽取事件要素并构建事件库,对促进双边文化交流,及时、全面地了解东盟国家社会动态具有十分重要的意义。由于自然语言的灵活性,机器缺乏人类具有的世界常识、心理活动和理解同一事物所需的共识,使得机器从文本中正确地抽取事件要素变成一项十分具有挑战性的任务。目前对事件要素抽取的研究主要针对英语、中文等资源丰富的语言,而对东盟低资源语言事件要素抽取的研究很少。低资源事件要素抽取除了要解决一般事件要素抽取的共性问题之外,还要受到数据获取困难、标注数据不足、处理工具匮乏等诸多因素的限制。本文基于自然语言处理和深度学习领域的理论成果和技术框架研究了低资源条件下事件要素抽取的问题,提出了一整套面向低资源场景的领域数据集构建和事件要素抽取方法。具体来说,本文的研究内容包括以下四方面:1.低资源场景下领域数据集的构建。独立同分布是机器学习领域的基本假设,推理样本和训练样本满足该假设是模型泛化能力的基本保证。然而在目前的领域数据集构建实践中,我们只是假设样本满足独立同分布,而行动上并未采取有效措施加以保证。为了使事件样本满足独立同分布假设,本文先提出了基于差分语义模型的句子表示模型以获得更加精确的句子表示,然后根据句子语义表示构建领域判别器,最后使用领域判别器筛选构建领域数据集的样本以及推理时输入事件要素抽取器的样本。本文提出的领域数据集构建方法,在实践中具有十分重要的参考价值。本文用此方法构建的包含7761个事件句、9387个事件的越南语Covid-19主题数据集,该数据集是目前已知第一个东盟小语种事件数据集。2.基于跨度选择的低资源事件要素抽取方法。本文在知识注入能有效提升模型性能的理论分析基础上,提出基于词汇知识注入的远程监督事件要素抽取框架,在该框架中词边界、词性等词汇知识经过编码之后通过向量拼接的方式实现注入。运用该框架对目前两个最新的基于跨度选择事件要素抽取模型进行扩展,实验表明词汇知识的注入能普遍提升模型的性能。无监督统计语言模型的提出是为了应对无任何词汇资源的极端低资源情况。在极端情况下,以越南语为例,无监督统计语言模型可以获得66%的分词准确率。3.基于文本生成的低资源事件要素抽取方法。基于文本生成的事件要素抽取方法具有模型和框架统一、整体性好、数据标注简单等优点。该方法可以无差别地处理事件句包含一个或多个事件的情况,因此它更具优越性。本文根据事件要素在上下文中分布以及低资源的特点,改进了目前基于文本生成的事件要素抽取模型。具体来说本文的改进包括在事件句中注入词汇知识、在模型输入序列中拼接上下文背景和外部知识编码,以及在模型的训练和推理过程中注入事件知识。在本文构建的越南语事件数据集上进行实验,结果表明本文的改进显著提升了模型的性能。4.基于本文的研究成果,即基于领域判别的事件数据集构建以及推理样本选择方法,和本文提出的基于文本生成的低资源事件要素抽取模型,本文从新闻网站上获取相关数据并实施事件要素抽取,最终构建了一个包含39833个事件、181695个事件要素的越南语Covid-19主题事件库。该事件库可以为其他信息处理系统提供较高质量的数据,该事件库是目前已知国内第一个越南语数据库。
其他文献
背景:原发性肝细胞肝癌(Hepatocellular carcinoma,HCC)是一类在全球范围内发病率和死亡率都极高的致死性疾病[1]。中国HCC新发病例和死亡病例都居世界首位,因此具有侵袭、转移及复发率高等特点的HCC严重威胁中国居民健康[1-4]。尽管早期/中期HCC患者采用手术切除和局部疗法,晚期HCC患者采用系统疗法,但HCC患者的5年生存率仍然只有7%,其主要原因是肿瘤的复发、转移和
学位
当前我国国家立法权的内部配置存在诸多问题。全国人大常委会的立法权限逐渐进入全国人大立法权限的范围;专门委员会间立法权限配置不平衡;委员长会议偏离自身定位;常委会工作机构职责不断扩张。这些问题的本质源于,在实践中并未形成对国家立法权内部配置问题的科学认识,并据此遵循一套基于我国制度实践的配置指导原则,致使立法权在现实化的配置过程中,未能符合立法权本质属性和权力结构要求。国家立法权的内部配置,是被分解
学位
国家权力配置是宪法学永恒的话题,行政区划涉及国家权力在中央与地方间的博弈:分权或者集权、不同层级行政区域权力的纵向划分。权力的配置需要制度、层级、空间地域等载体,糅合起来构成行政区划。简言之,行政区划就是宪法规定的一国实施分级分区管理的国家制度。关于行政区划的本质,首先它是国家权力纵向配置的层级框架。国家的立法权、行政权以及财政、税收甚至人事任免等权力都是依据行政区划来配置的。其次,它是地方法律制
学位
背景和目的:作为消化道常见的恶性肿瘤,食管鳞癌具有早期症状不明显和恶性程度高的特点,严重威胁人类健康。食管鳞癌患者预后差,除了复杂的发病机制外,对放化疗抵抗是导致食管鳞癌患者存活率低的一个重要原因,但是目前关于食管鳞癌放化疗抵抗的机制尚不明确。本研究目的在于探究潜在功能基因在食管鳞癌中的表达和调控机制,为食管鳞癌寻找新的潜在治疗靶点和准确的生物标志物去预测和改善放化疗治疗效应。方法:本研究用慢病毒
学位
19世纪中叶,欧洲各国传教士纷纷进入中国。为理解中国民众的真实生活,便利其传教活动,他们以相当精力深入中国乡村社会,进行大量“田野调查”,形成了对中国礼俗社会的国情基本认知,并由此产生了一批关于中国社会民间信仰调查与研究的著作,这便是传教士关于中国民间信仰研究的由来。时过境迁,这批著作的价值早已超出当时服务于传教的简单目的,而是成为理解和研究中国近世民俗以及近现代民俗变迁的重要史料。就中国近现代学
学位
糖尿病患病率逐年上升,糖尿病肾脏疾病(Diabetic kidney disease,DKD)作为糖尿病最常见的微血管并发症之一,其发病率和患病人数亦逐年增高,已成为我国终末期肾病及进入透析治疗的主要病因,给国家、社会、患者带来沉重的负担。然DKD发病机制较为复杂,目前尚未完全明了。进一步认识DKD的发病机制,寻找新的诊断生物标志物、新的治疗靶点,以及更有效的治疗方法势在必行。越来越多的研究表明,
学位
背景:我国是肝癌大国,每年新发病和死亡人数均占全球的一半。因此,提高肝癌诊治水平、降低肝癌发病率和病死率是我国卫生健康委员会和肝病专家的重要课题之一。原发性肝癌目前是我国第4位常见恶性肿瘤以及第2位肿瘤致死病因。在我国,75%-85%的原发性肝癌病例为肝细胞癌(hepatocellular carcinoma,HCC),64%的HCC病人在初诊时为CNLC-Ⅱ和Ⅲ期[巴塞罗那肝癌临床分期(BCLC
学位
传感器技术在当今信息化时代作为一种有效且必需的信息采集手段,在社会生产中发挥着举足轻重的作用。其中,压力是众多信息中最基本、最常见和最重要的信息之一。光纤压力传感器由于具有本质无源、抗恶劣环境能力强、抗电磁干扰、可远距离遥测、易组网复用等优点在众多压力传感器中异军突起,且广泛应用于临床医学检测、结构健康监测、油气勘探等关键领域。虽然光纤压力传感技术相对成熟,但在传感性能及抗外界环境干扰能力方面有待
学位
“沙盒化”是近四十年来电子游戏发展的重要走向,也是互联网时代电子游戏回归其文化本真的必然趋势。本文是关于这一趋势的第一篇技术文化史的尝试性研究。所谓“沙盒化”是指在电子游戏中以技术为手段,给予每一位玩家以表达自由,使玩家可以在最大程度上生成自己个性化的游戏内容,——像儿童“玩沙”一样的随性与自由。尽管“沙盒化电子游戏”以具体产品实现其“类型化”的技术历程已有二十多年,业界以“玩沙”命名定义这一历程
学位
锂离子电池自诞生以来已经获得了长足的发展,并且深刻影响着人们的日常生活。锂离子电池通常会按照正极材料的类别进行命名,从侧面体现了正极材料的重要程度。过渡金属氧化物正极材料凭借丰富的成分和结构,牢牢占据着消费电子、交通运输以及电化学储能等领域的绝大部分市场,因而是非常重要的正极材料类别。其中,钴酸锂和锰酸锂是首批实现商业化的正极材料,如今它们依然凭借着各自独特的优势发挥着不可替代的作用。伴随着市场需
学位