面向裁判文书的文本分类算法研究

来源 :大连理工大学 | 被引量 : 2次 | 上传用户:lxfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国司法机关不断推进案件信息公开,海量的裁判文书得以出现在互联网上,这些裁判文书蕴含了丰富的信息,对其进行挖掘将产生巨大的价值。在大数据和人工智能发展的背景下,智慧司法研究日趋火热,该研究主要以裁判文书为数据基础,以自然语言处理为技术基础。裁判文书具有非结构化、格式固定、语言精确等特点。作为自然语言处理基础任务之一的文本分类,在通用领域和各垂直领域具有广泛的应用。本文在现有经典文本分类算法的基础上,研究了智慧司法领域的案例信息抽取、案情要素识别和量刑预测等三个典型任务,并基于任务和数据特点对现有算法进行了改进。本文工作对于自然语言处理研究内容的拓展和智慧司法研究方法的改进具有现实意义。针对裁判文书数据的案例信息抽取问题,提出了基于BiLSTM-Attention的裁判文书字段分类模型。首先通过规则对裁判文书的内容进行字段划分,接着在人工校对结果的基础上构建字段分类数据集,然后训练针对裁判文书特定字段的文本分类模型,最后使用训练好的模型对非结构化的裁判文书进行字段划分,从而实现对裁判文书的粗粒度案例信息抽取。实验结果表明,本文方法在案例信息抽取上可以达到98%的准确率。针对民事案件的案情要素识别问题,提出了基于预训练语言模型的多标签文本分类算法框架。该框架采用基于Layer-attentive的BERT多层特征融合方法进行文本编码,可以有效提取深度文本特征。采用序列生成的策略输出预测的标签结果,能够有效捕获标签间的依赖关系。基于法研杯2019的数据集进行实验,本文方法取得了72.2的平均F1值。针对刑事案件的量刑预测任务,提出了融合罪名和法条信息的可解释量刑预测模型。该模型以语言模型为基础,输入的第一部分为案件事实,输入的第二、三部分是罪名和法条的描述,输出是整合的三部分的隐层表示,最后是分类层。本文方法在法研杯2018数据集上进取得了0.392的F1值,在PreSent数据集上取得了0.453的F1值。实验结果表明罪名和法条能够起到提升准确率和增强结果可解释性的作用。本文基于文本分类算法,研究了案例信息抽取、案情要素识别和量刑预测等内容,分别有针对性地提出了任务导向的框架和对现有算法的改进。本文研究成果丰富了自然语言处理的研究内容,改进了智慧司法的研究方法,有助于解决司法领域的实际问题,帮助法律工作者更好地工作。
其他文献
私分国有资产罪是1997年刑法新设立的罪名,由贪污罪分离而来,由于两者在犯罪客体、客观方面、主观方面都有相似之处,因此在理论界中对两者的区分也是众说纷纭,难以准确界定两
传统伦理道德在现代文明发展过程中出现断裂,社会各阶层、各领域不同程度地出现了群体性的失信行为,逐步瓦解着社会信任度。信任问题由部分人的感知逐渐演变成社会大众的普遍
“更多旗帜”计划是美国约翰逊政府为了号召所谓自由世界国家协同美国对抗北越的行动计划。其主要是通过争取这些盟友对南越进行援助,以此获得国际社会对美国越南政策的认可,
近年来,互联网技术的快速发展不断提高着人们的生活品质,这也使人们对新技术的应用提出了越来越高的要求。高精度天气预报、自动驾驶等任务在这一过程中成为急需解决的问题。
第一次世界大战是美国外交政策变化的重要时期。威尔逊将这场战争视为美国攫取世界霸权和重塑国际关系的绝好时机。这场战争也吸引了美国许多知识分子的关注。沃尔特·李普曼
随着信息技术的不断发展,人们从互联网上获取知识的需求也不断增加。传统上被广泛使用的信息检索系统需要用户从若干篇排序的网页中,理解并找到答案,这无疑会耗费一定时间。
触觉是人体进行精细运动控制的关键。近年来的研究表明,触觉感觉反馈能够有效地帮助脑卒中与截肢等运动功能障碍患者进行运动康复。目前,经皮电刺激引起的电触觉是实现触觉感
唐诗和明传奇作为中国古代文学史上独具特色的两种文学样式,在其所处时代都取得了极高的文学成就。二者虽然时代相隔甚远,且表达方式各异,但却存在着一定的交集。明代众多传
周伯琦是元末汉族扈从文人,在元末政坛有重要的地位和影响,著有诗集《近光集》三卷及《扈从集》一卷,另有《说文字原》与《六书正譌》两部文字学著作,同时也工书法与书画鉴赏
两亲性嵌段共聚物在选择性溶剂中能形成结构丰富可调的有序组装体(如球形胶束、柱状胶束以及囊泡等)。相比小分子组装基元,嵌段共聚物具有特殊的松弛行为,组装过程中存在许多亚稳态,因此其组装动力学过程对组装体结构有显著影响,调控其组装动力学过程对构建具有复杂精细结构的组装体有着重要的意义。本论文研究了AB型两亲性嵌段共聚物聚苯乙烯-b-聚(4-乙烯基吡啶)(PS-b-P4VP)在微流控芯片中的自组装行为,