论文部分内容阅读
随着以深度神经网络为代表的人工智能技术的快速发展,司法领域正在向智能化、自动化方向迈进。作为司法审判中的重要环节,罪名预测任务直接关系到整个案件的裁决与性质。目前基于犯罪事实描述的单标签罪名预测研究工作已经相对成熟,但在实际应用场景中,“一人多罪”、“数罪并罚”的情况也同时存在,这就需要进行多标签罪名预测任务的研究工作。传统基于犯罪事实描述的多标签罪名预测方法,大多利用阈值神经网络框架,即在罪名概率向量的基础上手动设置先验阈值,按照单标签多分类的方式来完成预测任务。还有一些研究工作利用问题转换方法,将多标签罪名预测任务转化为并行的单标签罪名预测任务,通过在每个罪名标签上构造分类模型并进行训练,然后集成元分类模型最终实现多标签罪名预测。此类方法虽然计算逻辑简单,但没有考虑到罪名之间的逻辑关联,如贩卖毒品罪与容留他人吸毒罪等,导致在预测有内在犯罪关联的案例时召回率指标下降,并且在样本标签空间特别大的情况下模型复杂度就会升高,不便于在实际场景中使用。在分析前人相关研究工作的基础上,本研究一方面通过将多标签罪名预测任务转换为罪名序列生成任务,从机器翻译的角度将罪名之间的逻辑关联融入到模型中,即完成对犯罪事实描述到罪名序列的映射建模,利用循环神经网络解码单元进行链式计算,串行输出罪名序列,提升了模型的多标签预测效果,同时因为无需构建并行训练数据集,也降低了在大样本标签空间下数据处理的人工成本。另一方面,鉴于犯罪事实描述的篇章级文本特征,传统循环神经网络已经不能满足对长序列文本的建模需求,因为循环神经网络的链式结构在模型训练时容易出现梯度消失或梯度爆炸的问题。本研究中采用基于层次注意力机制的网络结构,将犯罪事实按照语句结构进行拆解,分别在单词和语句级别进行注意力建模得到文本表征向量。通过这种分层机制,模型可以挖掘出犯罪事实中的关键单词和关键语句,从而缓解了犯罪事实文本过长带来的信息丢失问题,提高了模型预测的精度。通过在两个多标签罪名数据集上与多个基准模型的实验对比,本研究提出的基于层次注意力机制的序列生成模型,在多标签罪名预测任务中,较大幅度地提升了准确率和召回率。实验结果充分验证了层次注意力机制和增加罪名逻辑关联信息对多标签罪名预测的有效性。