大规模短文本分类系统的设计与实现

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:error007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的普及使得顾客对客户服务的需求可以借助在线客服快速得到满足,但随着企业产品线的增加和互联网用户的增长,传统的客服系统已经无法轻易满足现代企业和用户的需要。而借助迅速发展的人工智能(Artificial Intelligence,AI)技术助力的智能客服系统可以很好的帮助解决该难题。智能客服系统中,有一大类是基于FAQ(Frequently Asked Questions)进行的,精确地将用户问题和FAQ中标准问题进行匹配是该类智能客服系统的主要任务,该任务可以通过使用文本分类技术来完成。然而,现代企业提供的FAQ数量越来越多,动辄多达上万个,而用户问题又大多都是短文本,包含信息更少的同时还常常带有噪声且缺少主题性,这都大大增加了分类的难度。因此解决这一问题需要面临大规模和短文本两个方面的挑战。目前对于短文本分类有基于传统方法和基于深度学习方法的解决方案,传统方法通常需要依赖相关性高的外部数据,深度学习方法近几年表现更突出,但还未有在FAQ匹配语料上进行分类任务的相关研究。对于大规模文本分类,通常考虑采用层次分类,但目前的层次分类结构大多基于类别间既有的关系来构建,没有充分利用类别间的表示信息。针对智能客服系统中大规模类别的短文本分类需求,本文设计并实现了一个大规模短文本分类系统,通过给管理员和用户两类人群提供对应服务,实现该需求。该系统通过给智能客服场景下的短文本设计一种好的表示方法来改善短文本的数据稀疏问题,在基于传统方法或深度学习方法的多种文本表示方法上进行优化,最终选择了基于卷积神经网络的短文本表示方案。然后利用短文本表示得到类别表示,进而基于类间可分性构造层次分类结构来缓解大规模类别数的问题,在系统设计阶段,本文提出了 5种方案的层次分类结构,并通过对比实验,最终从5个实验方案的结构中选出了在语料平衡和语料不平衡的情况下效果最优的两种层次分类结构,在提高针对大规模短文本分类性能的同时,提供给系统自动根据语料平衡情况选择实验方案中效果最优结构的功能。在该系统上的测试结果表明,本论文提出的系统方案可以提供比传统方案性能更好的智能客服服务。
其他文献
半导体激光器是世界上发展最快、应用最广泛、最早走出实验室实现商用化且产值最大的一类激光器。但随着进入二十一世纪,无论工业还是军用领域,对激光器波长和尺寸等参数的要
采用实测资料分析的方法,研究了黄河三角洲生态环境问题.结果表明,黄河三角洲生态环境面临的主要问题有:入海水沙持续减少;海岸带生态环境不稳定,湿地萎缩严重;土壤盐碱化程度
药物的最佳使用是指在临床药物治疗过程中通过高质量地使用药物,使患者获得最佳的治疗效果.高质量地使用药物意味着在获得最佳治疗效益的同时,将药物引起的不良影响或药物造
严格耦合波分析法(RCWA)是一种非迭代的能稳定收敛的状态变量解法,是周期结构衍射模拟分析中应用最广的傅立叶空间的方法,这种方法非常适合于对亚波长量级的周期结构进行衍射
马氏距离是多元统计中常用的一种判别方法.以实例分析了马氏距离方法在路面使用性能评价中的应用,阐述马氏距离法的基本思路和操作步骤,论证了马氏距离法的科学性、合理性和
2011年起,我国开始逐步推行教师资格考试改革,截至2016年,各地教师资格认定均纳入全国统考。此次改革对当前地方师范院校的师范教育提出了新的挑战和要求。当前地方师范院校
随着科学技术的进步以及人们日益增长的科学文化水平需求提高,电梯已经成为高层建筑的标配设备,目前市场上主导的国外电梯品牌有美国奥的斯电梯、瑞士迅达电梯、日本三菱电梯
【目的】研究儿童金黄色葡萄球菌的血流感染临床特点、易患因素、转归及耐药性,为合理控制及治疗儿童金黄色葡萄球菌血流感染提供依据。【方法】以2016年1月至2018年6月间血
"新零售"这个风靡市场的新词是阿里巴巴马云在2016年阿里云栖大会上提出的新理念,对于零售业来说是其第四次革命,引发万众瞩目。从零售业的第一次革命百货商店到第二次的连锁
由于InGaAs与衬底GaAs之间的失配度比较大,难以获得高质量的外延材料。为了降低由于应变累积而产生的不良效果,本文通过理论推导和模拟仿真,设计InGaAs/GaAsP应变补偿结构,确