论文部分内容阅读
互联网的普及使得顾客对客户服务的需求可以借助在线客服快速得到满足,但随着企业产品线的增加和互联网用户的增长,传统的客服系统已经无法轻易满足现代企业和用户的需要。而借助迅速发展的人工智能(Artificial Intelligence,AI)技术助力的智能客服系统可以很好的帮助解决该难题。智能客服系统中,有一大类是基于FAQ(Frequently Asked Questions)进行的,精确地将用户问题和FAQ中标准问题进行匹配是该类智能客服系统的主要任务,该任务可以通过使用文本分类技术来完成。然而,现代企业提供的FAQ数量越来越多,动辄多达上万个,而用户问题又大多都是短文本,包含信息更少的同时还常常带有噪声且缺少主题性,这都大大增加了分类的难度。因此解决这一问题需要面临大规模和短文本两个方面的挑战。目前对于短文本分类有基于传统方法和基于深度学习方法的解决方案,传统方法通常需要依赖相关性高的外部数据,深度学习方法近几年表现更突出,但还未有在FAQ匹配语料上进行分类任务的相关研究。对于大规模文本分类,通常考虑采用层次分类,但目前的层次分类结构大多基于类别间既有的关系来构建,没有充分利用类别间的表示信息。针对智能客服系统中大规模类别的短文本分类需求,本文设计并实现了一个大规模短文本分类系统,通过给管理员和用户两类人群提供对应服务,实现该需求。该系统通过给智能客服场景下的短文本设计一种好的表示方法来改善短文本的数据稀疏问题,在基于传统方法或深度学习方法的多种文本表示方法上进行优化,最终选择了基于卷积神经网络的短文本表示方案。然后利用短文本表示得到类别表示,进而基于类间可分性构造层次分类结构来缓解大规模类别数的问题,在系统设计阶段,本文提出了 5种方案的层次分类结构,并通过对比实验,最终从5个实验方案的结构中选出了在语料平衡和语料不平衡的情况下效果最优的两种层次分类结构,在提高针对大规模短文本分类性能的同时,提供给系统自动根据语料平衡情况选择实验方案中效果最优结构的功能。在该系统上的测试结果表明,本论文提出的系统方案可以提供比传统方案性能更好的智能客服服务。