论文部分内容阅读
问答是自然语言处理和信息检索领域的一个重要研究分支,它融合了多种自然语言处理和信息检索的相关技术,是比搜索引擎更人性化的向人们提供所需信息的一种手段。受社会的不断进步,网络的不断发展,信息的急速爆炸的影响,问答系统将发挥越来越重要的作用。在线客服系统,是问答技术的一种重要表现形式。通过融合FAQ系统、自动问答系统、交互式系统,结合客服人员的辅助向用户提供所需服务。近年来,因其广阔的市场价值及应用前景,受到人们广泛的关注。 本文主要研究面向在线客服系统的两项关键技术:FAQ模块中的问句相似度计算和自动问答模块中的候选答案句抽取。 FAQ系统是早期问答系统的一种应用形式,现在在线客服系统中多处于一种辅助的角色,同时也是提高客服系统性能的一种重要手段。FAQ的数据通常是一些问答对的集合,问句相似度的计算是FAQ系统能否准确理解用户问题,并做出正确回答的关键所在。本文采用依存句法分析和词义相似度计算相结合的方式,通过分析句子中关键句法成分的匹配度配合词义相似度,计算问句间的相似度。实验表明该方法取得了较好的效果,更适合于在线客服系统。 对于候选答案句的提取我们采用了两种方法:基于树核的方法和基于支持向量机SVM的方法。前者利用句法分析技术分析句子的依存结构,通过依存关系树和依存短语树的匹配度计算问句和候选句的相似度,作为提取候选答案句的依据;不同于基于树核方法只使用句法分析结果,后者通过综合分析提取问句和候选句间的词、词性、词义、句法、疑问词等特征,训练SVM模型,通过模型提取候选答案句。实验表明这两种方法相较于其他方法,在我们的实验数据上均取得了较好的效果,同时实验证明基于SVM的方法要优于基于树核的方法。 最后我们介绍了一种在线客服系统的框架,结合SVM提取候选答案句的方法,提出了能够更好的利用系统中客服和客户交互的问答记录的增量式SVM抽取候选答案句的方法,并介绍了该方法的主要流程。随后在线客服系统环境下实验了上面两种提取候选答案句的方法,也取得了更好的效果。