面向法律文本的信息抽取算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：colinzeng76

【摘要】

：

【作者】

：

宋文辉

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着司法体制改革的不断纵深发展,法律文书数字化的程度不断提高,网络上可获得的法律文本信息实现了指数级的增长。但不同种类的法律文本书写规范相异较多,难以通过规则直接进行文档理解和知识分析。因此越来越多的研究者将自然语言处理技术应用到法律文本,通过信息抽取将非结构化的文本转化为结构化的数据,促进了司法信息化发展,提高了司法效率。信息抽取包括命名实体识别、关系抽取和事件抽取,目的在于抽取出文本中的实体关系信息以及事件信息,对知识图谱、信息检索和智能问答等任务都有重要作用。命名实体识别和关系抽取目前一般通过联合学习完成,旨在同时抽取文本中的实体关系信息,并以关系三元组结构作为输出;事件抽取任务旨在抽取文本中的事件信息,确定触发词、事件类型、事件论元以及论元角色。基于此本文对上述内容进行分析实验,主要工作如下:（1）针对法律文书中关系三元组的抽取问题,本文提出了一种基于预训练语言模型的实体关系联合抽取方法,利用端到端模型直接输出文本中的实体关系三元组。研究者通过在标签空间融合关系信息的策略将三元组抽取问题转化为序列标注问题,然后利用自定义规则完成实体关系抽取。同时针对司法领域数据集的缺失问题,研究者人工构建了关系抽取数据集,模型在该数据集上取得了较好的抽取效果。（2）针对法律文书中存在的复杂关系问题,本文提出一种基于语法增强和多头注意力机制的关系抽取方法。本文首先通过有序神经元—长短期记忆神经网络注入语法信息,然后引入多头注意力机制分解复杂的重叠关系。相较于流水线方法和其他联合学习方法该模型抽取效果最佳,在实验文本数据集上抽取结果的F1值达到了最优效果。（3）针对实际业务中对于犯罪事实的表达需求,本文提出一种基于阅读理解模型的事件抽取方法。本文首先根据不同的语义丰富度人工构建不同的触发词识别模板,探究阅读理解机制对于触发词抽取的增益效果;然后基于规则构建事件特定的论元抽取模板,将角色的语义信息融合进候选论元的识别过程,同时基于动态阈值策略完成论元抽取。实验结果证明提出的方法在法律领域的事件抽取中得了最好的效果。

其他文献

基于全景图的室内场景点云补全方法研究

三维重建是计算机视觉领域重要的研究方向之一,在文物保护、虚拟现实、机器人与自动驾驶等领域都有着广泛的应用。近年来,三维重建领域得到了快速发展,但三维重建模型仍有缺陷。受遮挡和距离传感器等内在因素影响,三维重建模型存在不同程度的缺失情况,因此引入三维补全进行修复。三维补全是三维重建领域中的一个重要研究方向。传统补全方法通过挖掘几何线索或匹配数据库模型实现补全,依赖于先验知识或数据库容量。深度学习方法

学位

基于知识迁移的多任务优化方法研究

多任务优化是当前智能优化领域的热点之一,多任务优化算法在优化多个彼此相关的任务时,通过迁移任务之间的有效知识来提升各个任务的表现效果。但传统的多任务优化算法通常用于优化规模较小的任务组,在面对任务量较大的优化场景时,会出现迁移效果变差、计算成本升高、任务收敛变慢等问题。为解决这些问题,研究者们提出了多任务质量多样性算法,它能够生成大量多样化且表现效果好的解决方案,在一些特定场景下可以同时解决大量任

学位

基于深度学习的生物医学文本检索

得益于深度学习的迅猛发展,信息检索领域中基于深度学习的检索模型也层出不穷。自预训练语言模型提出后,信息检索领域相关研究更是进行得如火如荼。作为信息检索领域的子领域,生物医学文本检索领域的研究却因为数据集不全、处理难度高等原因进展缓慢。但生物医学文本检索的发展对于人类健康有着重要的意义。尤其自新冠疫情以来,人们对健康问题的关注度更高、对生物医学文本的需求也更加迫切。因此,本文尝试将信息检索领域的研究

学位

面向生物医学文本的实体识别和标准化研究

随着医疗信息化建设和生物科技的迅猛发展,生物医学文献和电子病历的数量呈现出指数级增长的态势,蕴含在这些生物医学文本中的信息成为生物医学研究的宝贵资源。但由于生物医学文本大都是以自然语言描述的非结构化形式存在,计算机无法直接对其进行有效的分析和利用。因此,通过生物医学文本挖掘技术对生物医学文本进行有价值信息的提取和利用,将对生物医疗技术的进步和医疗健康领域信息化建设的发展产生深远和积极的影响。生物医

学位

面向药物重定位的隐含知识发现研究

浩如烟海的生物医学文献中储藏着大量非结构化的信息,是生物医学信息挖掘的重要来源,对于隐含知识发现研究而言更是宝贵的待开发资源。一方面,使用自然语言处理技术和深度学习方法自动化进行药物重定位,能够极大地降低药物研发的经济成本和时间成本;另一方面,药物重定位系统作为药物研究人员研发的参考依据,其推断结果需要具备充分的准确性和可解释性。如何高效而准确地将生物医学文本中的信息结构化是生物医学文本挖掘的一个

学位

面向中文新闻的文本摘要研究

随着互联网技术的发展,越来越多的社交媒体网络平台逐渐产生,为人们带来了新的获取信息的途径,成为了人们日常生活中获取公开信息的主要来源方式。相比与传统的新闻媒体,微博、今日头条等社交媒体网络具有更好的互动性和时效性,有着更丰富的新闻表现形式,能够在新闻发生后第一时间帮助人们获取相关资讯。但是社交媒体网络中的新闻并非全部都是关键信息,包含大量冗余内容。人们可能需要花费更多的时间从新闻中获取需要的信息。

学位

面向医疗领域的中文分词研究

神经网络中文分词系统可以在手工标注资源丰富的领域内场景下能提供最先进的分词性能。但是,当遇到医疗领域等专业文本时,由于领域内标注资源的稀缺导致中文分词系统的性能骤降。现有神经网络中文分词系统在低频术语的分词上表现不佳。针对中文分词任务在跨领域场景下的数据分布不匹配和未登录词识别困难问题,提出了一种词典增强图卷积神经网络领域自适应中文分词方法。首先,利用外部词典对输入句子进行候选词匹配,构建基于词典

学位

动作识别领域中多粒度分类问题的研究

近年来,视频成为了各大媒体的主流数据,基于视频数据的研究成为了当下的热点。动作识别针对的是人体运动相关的视频,是目前人工智能领域中比较前沿的研究方向。动作识别已广泛应用于诸多领域,如步态分析、增强现实、人机交互、娱乐和游戏、体育科学等,因此具有巨大的研究意义和研究潜力。本文面向动作识别领域中的多粒度分类问题进行研究,当前相关算法已经取得了重大突破,然而仍存在一些待解决的问题。首先,现有方法中的自注

学位

译后编辑模式下《泡沫灭火系统设计规范条文说明》节译实践报告

本篇报告是一篇关于机器翻译加译后编辑模式下的翻译实践报告。原文选自《泡沫灭火系统设计规范条文说明》的前两章。该文本是中国公司为援助柬埔寨消防建设,根据相关中国标准编写的文件,需要翻译成英文供柬埔寨相关部门作为该国国家标准借鉴使用。该项目旨在提高目标读者对消防规范的了解,并在翻译过程中提供有效的翻译策略。原文用词准确、严谨、逻辑性强,内容存在较多数字和表格,属于典型的信息型文本。在译后编辑过程中,通

学位

面向生物医学文本的实体关系抽取研究

目前,各种知识库中存储了海量的生物医学文本,其数量还在呈指数增长。这些文献是生物医学技术发展的结晶,通过信息抽取技术挖掘隐藏在生物医学文本中的有用知识是一个重要的研究课题。实体关系抽取是信息抽取的一个关键子任务,它在命名实体识别的基础上,把包含实体对的文本分类到预先定义好的关系类型中。目前,面向生物医学文本的实体关系抽取研究致力于通过构建深度学习模型来自动地从无结构化的生物医学文本中抽取出结构化的

学位

面向法律文本的信息抽取算法研究

其他学术论文