基于语义的用户意图领域多分类算法分析

来源 :武汉大学 | 被引量 : 3次 | 上传用户:yuwumalan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着AI热潮的兴起,人机对话技术受到了学术界和产业界的广泛关注,人机对话是人机交互最自然的方式之一,他的发展影响推动着自然语言理解、语音识别与合成、对话管理以及自然语言生成等研究的进展。人机交互已经渗透到我们生活的方方面面,包括我们日常使用的微信语音输入功能,苹果的Siri查询功能,亦或是能对人的指令进行精准识别操作的功能机器人等等,要实现这些功能,其中一个重要的方向便是用户意图识别分类,也就是NLP领域的情感分析任务。在人机对话系统的应用过程中,用户可能会有多种意图,相应地会触发人机对话系统中的多个领域,其中包括任务型垂直领域(如查询机票、酒店、公交车等)、知识型问答以及闲聊等领域。人机对话系统的一个关键任务就是正确地将用户的输入精准识别,然后准确的分类到相应的领域中,最终才能返回正确的回复结果。目前基于语义的用户意图分析受到越来越多的人关注,通过自动分析文本内容,将用户的搜索或查询意图精准的分配到特定的域中成为了现在比较热门的NLP多分类问题。Softmax,SVM等传统的分类算法相继被应用于文本分类,并取得了不错的效果,但随着近年来人们对分类精度的要求越来越高,深度学习被更多的应用于这个领域,通过建立复杂的神经网络模型来应用到自然语言处理中去,如卷积神经网络(CNN)、循环神经网络模型(RNN)模型等,这其中一种经过RNN变种的长短期记忆网络LSTM模型,克服了 RNN梯度消失的缺点,在文本分类领域取得了极好的效果。本文提出一个基于LSTM的深度学习模型来解决用户意图分类问题,并最终采用了带隐层的LSTM模型以及双向LSTM(BI-LSTM)模型,通过Jieba分词与Word2vec进行中文分词与词向量预处理操作,进而通过自编码对词向量进行降维,进行多次调参处理选取合适的学习率等参数,将处理结果输入到复杂的LSTM神经网络中去,LSTM算法通过巧妙地设置输入、输出以及遗忘门限,通过权重系数控制序列中信息的传递与输出,最终通过Softmax分类器输出多分类。模型采用多种优化方法,包括采用dropout防止过拟合,基于词频建立自定义规则辅助识别,选取Attention机制优化模型,采用十折交叉法集成投票得到算法的准确度,最终使得模型在测试集上的分类准确度达到94%,超出了中文人机对话技术评测(ECDT)比赛第一名所取得的92.7%分类准确度。本文模型在系统实现的过程中尝试了多种深度学习优化技术,并对这些技术进行了简要的介绍及实验分析。
其他文献
介绍了四川省针对本省卫生人才总量不足、素质不高、结构不合理的状况,卫生部门和教育部门协同配合,从机制、制度和模式三个方面入手,推进卫生计生人才培养的做法:完善工作机制,做
目的:评估CT诊断卵巢肿瘤及肿瘤样病变的准确度。方法:回顾性分析232例经组织病理学证实的卵巢肿瘤及肿瘤样病变患者的CT资料。计算CT诊断的敏感度、特异度、阳性预测值、阴性
当代市场国际竞争日益激烈,来自全球不同客户的需求更加个性化,选择多样化,这就要求外贸公司要能够提供更加完善和优质的服务,特别是针对一些具有长期合作关系的大型客户以及具备相当实力的潜在客户,更要在现有客户关系管理的基础上开发出更加全面和完善的服务体制。但受制于公司资源有限,企业必须集中精力放在那些能够或预期能够给企业带来实际经济利益的客户身上,这就需要企业对现有客户进行科学合理的分类并对不同类型的客
目前的企业经营过程中,由于制造型企业由大批量生产向大规模客户定制化生产发展的趋势日渐加强,终端客户需求各不相同,产品质量要求尽善尽美,产品生命周期明显缩短,企业在日
动画场景的设计与制作是艺术创作与表演技法的有机结合,其风格与类型受到地域、民族、文化等多方面的影响。动画电影《大鱼海棠》的场景设计中,运用了多种传统元素,尤其是传
通过采用特定氯化促进剂A替代氯化氢通入的方法,以叔丁基苯为原料进行氯甲基化制备对叔丁基氯苄,使目标产物的平均含量和收率达到97%以上.反应母液经分离后循环使用仍保持相