论文部分内容阅读
在公司规模日益壮大、装备产品定制化特点越来越强的趋势下,传统的以邮件、电话、传真、纸质文档为信息媒介的信息交互模式显得落后。由于客户所问问题具有多样性,因此针对客户提出的问题,企业需要安排内部相应的专业人员来回答。这种落后的信息交互模式会让客户觉得流程繁琐、节奏缓慢,同时会经常打断内部工作人员的工作节奏。为了缓解这种情况,定制型装备制造企业A企业开发了一个智能客服,但由于系统设计水平有限,现有的智能客服系统使用流程繁琐,用户对系统返回答案的满意度很低,经过深入分析,造成这种结果的原因是:1)问题没有分类且问题和答案都没有设置权限,导致针对用户的每一个问题,系统都要在问题库中进行全局遍历,效率低且效果差;由于没有设置权限,答案回复混乱,且可能泄露商业机密。2)问句预处理太简单,没有针对A企业的实际信息交互情况进行领域专业词标注、更新停用词表等,对于领域专业词如“图纸方案”、“钻排气孔”、“配侧板”、“转动幅度”、“滚花线”,分词效果混乱。3)用户问题与问题库中问题的匹配方式太简略。因此,对A企业智能客服系统进行优化具有重要意义。为了解决公司规模日益壮大而信息交互模式落后的矛盾,在深入分析造成原智能客服系统“使用流程繁琐且答案返回混乱,用户对系统的满意度低”的原因的基础上,A企业决定优化其智能客服系统。结合A企业实际情况,提出以下优化思路:1)结合信息特点进行数据预处理。2)结合领域特征对问句进行分类。3)用余弦相似度算法进行句子匹配。本次研究的目的在于提高智能客服系统的答案返回准确度以及用户体验。为了达到目标,本文决定对系统进行总体的重新优化设计。随着定制装备制造业的发展,相关数据量激增,为问句分类模型的训练提供了足够的原始数据,近年来自然语言处理技术也在不断成熟。以上发展为本文研究问句分类和句子相似度计算提供了方法与条件。本次研究主要作了以下几点工作:1)在分析历史交互语料和进行实地调研的基础上,针对A企业智能客服系统进行了需求分析,设计了系统架构、功能结构数和数据库。2)对系统的核心功能进行了详细设计。用三种机器学习方法对问句进行分类,以缩小下一步问句相似度匹配的范围,然后在相应的范围内用余弦相似度算法来计算句子相似度,并分别验证了算法的有效。在问句分类部分,Logistic回归、BP神经网络和支持向量机SVM三种机器学习方法的准确度分别为,运行时间分别为67.6%,83.5%和72%,平均每句分类时间分别为1.3S,0.9S和1.6S。在目前的训练集数量下,BP神经网络效果最佳。在相似度计算部分,基于TF-IDF相似度、基于关键词权重相似度和基于余弦相似度计算出来的准确率分别为51.6%,56.6%和82.4%,在相同的数据库和测试集的情况下,基于余弦相似度计算的效果优于基于TF-IDF相似度计算和基于关键词权重相似度计算的效果。3)测试了系统优化的效果,展示了部分使用界面。在优化系统后,答案返回准确率分别由43.2%提高到80.6%,平均运行时间相差不大,平均评价星级由1.2星提高到3.5星,达到了预期的优化效果。本次研究对A企业智能客服系统的优化具有重要意义。