基于决策树的婚姻法律短文本自动对话系统

来源 :华侨大学 | 被引量 : 1次 | 上传用户:quakerb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网上的法律咨询越来越多,但目前这部分大多由律师承担,为了解放律师的工作,各种咨询系统由此发展起来。目前的法律咨询系统还面临着逻辑推理弱、句子表征能力差等问题,本文主要针对句子表征的能力、属性值抽取的能力、对话过程设计等问题进行了研究,主要研究内容如下:(1)针对现有句子语义相似度计算由于缺乏语义结构信息导致精度低的问题,在依存关系树的基础上,提出了一种基于多头注意力机制Tree-LSTM(Multi-head Attention Tree-LSTM,MA-Tree-LSTM)的句子语义相似度计算方法。首先,MA-Tree-LSTM将外部具有指导意义的特征作为输入,再将输入结合多头注意力机制作用在Tree-LSTM树节点的所有孩子节点上,为每个孩子节点赋予不同的权重值,从而实现多头注意力机制和Tree-LSTM的融合;其次,本文将三层的MA-Tree-LSTM应用于句子语义相似度计算并实现句子对的相互指导,从而得到句子对语义特征的多层表示;最后联合多层的语义特征建立句子对语义相似度计算模型,从而实现句子对间相关的语义结构特征的充分利用。本文提出的方法鲁棒性强、可解释性强、对句子单词的顺序不敏感、不需要特征工程。在SICK和STS数据集上的实验结果表明,基于MA-Tree-LSTM的句子语义相似度计算的精度优于非注意力机制的Tree-LSTM方法以及融合了多头注意力机制的BiLSTM方法。在后续的工作中考虑在其它数据集上进行评价,进一步将其扩展到BERT学习框架来提高句子相似度计算结果的精确度。(2)针对现有BERT属性值抽取方法无法捕捉较远距离特征、泛化能力弱导致精度低的问题,提出了一种基于Stacking集成的属性值抽取方法。该方法通过对BERT的输出分别增加了BERT_CLS、BERT_AVG、BERT_BiLSTM、BERT_CNN隐藏层实现模型的微调,然后通过5折交叉验证训练获得20个模型,最后通过stacking集成学习方法集成20个模型的结果。本文提出的方法易并行且泛化能力强、不需要特征工程。在RACE数据集上的实验结果表明,基于Stacking集成的BERT模型在精度上优于单模型的BERT方法。(3)针对即时法律咨询问题,设计并实现了一个基于决策树的任务导向型自动对话系统。该系统首先将法律咨询的结论离散化为分类类别,把与结论相关的当事人的信息离散化为基本属性,从而将法律咨询问题转化为一个分类的预测问题。其次,将收集的实际案例作为训练样本,建立基于并行C4.5决策树算法的法律咨询分类预测模型。最后,当新的当事人来咨询时,针对一轮问答的简单决策树,采用句子对相似度计算的方式返回结果;针对多轮问答的决策树,从所建立的决策树根节点决策属性开始,将决策属性所对应的问题抛出给当事人进行提问,对当事人的回答通过属性值抽取算法获得决策属性所对应的属性值,根据该属性值判断决策树分支走向、下一个决策属性和提问问题,咨询过程直到到达叶子结点才结束,并将叶子结点所对应的分类类别作为结论返回给当事人。以能不能离婚问题为例,所设计的自动对话系统相对于SVM可解释性强、精度高、提问问题少、实时性高,极大的缩减了人工工作量。对于如何进行基本属性抽取、如何通过后剪枝防止决策树过拟合是进一步的研究方向。在后续的工作中将考虑问题类型,实现一个可解释性的模型,我们还将进一步研究如何在RACE数据集上说明模型的推理性。
其他文献
由于开源软件的研发与维护采用自愿参与、分散组织方式,相对于商业软件,开源软件缺陷分派存在更多的不确定性、往往具有更长的缺陷修复过程。一些像Mozilla、Eclipse等具有广
无线网络技术的发展和智能移动终端的普及,给人们日常办公和娱乐带来了极大的便利,也使得运营商数据流量逐渐从传统的固网转移到无线网路。而诸如超高清视频、物联网等概念的
图像描述生成是一项结合了计算机视觉和自然语言处理的任务,对于给定图像,要求算法根据图像内容自动生成可以描述图像内容的自然语言。该任务在图像辅助理解、图文互搜等领域
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术凭借其频谱利用率高、抗符号间干扰能力强等优点,已作为信息传输技术被应用到多个无线通信标准中,如无
北衙金多金属矿床位于云南省大理白族自治州鹤庆县内,地处于扬子板块西缘,是金沙江-红河走滑断裂区带内与新生代富碱斑岩有关的斑岩-矽卡岩型矿床之一。北衙金矿是我国十分重
在化工行业快速发展的同时,伴随而来的化工事故也在频频发生。由于化工生产品中易燃易爆、有毒、有腐蚀性的物质较多,一旦管理不当或者生产中出现失误,就可能引发火灾、爆炸
忆阻器是一种具有记忆功能的非线性电阻。而分数阶微积分适合描述非线性特性。近年来已经有研究人员构建了忆阻器的分数阶数学模型,并对该模型的特性进行了相应的研究。忆阻
脑部肿瘤是最为常见的并对人体危害极大的疾病之一,具有较高的发病率与死亡率。有关脑部肿瘤的磁共振图像分析,是医生进行脑肿瘤诊断治疗、手术评估与病情跟踪的重要依据。但
随着信息技术产业的不断发展壮大,利用频谱地图表征某一特定区域内信号强度的空间分布情况,在频率复用、覆盖预测等频谱管理应用中变得十分必要。频谱地图通常表示为接收功率
激光光束作为信息载体在大气激光通信中得到了广泛应用。而在大气湍流环境激光通信链路特性的仿真分析与实验验证中,缺乏时间相关性信息会导致仿真过程的不完整和测试结果的