问句相似度计算和候选答案句抽取相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:JoQn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答是自然语言处理和信息检索领域的一个重要研究分支,它融合了多种自然语言处理和信息检索的相关技术,是比搜索引擎更人性化的向人们提供所需信息的一种手段。受社会的不断进步,网络的不断发展,信息的急速爆炸的影响,问答系统将发挥越来越重要的作用。在线客服系统,是问答技术的一种重要表现形式。通过融合FAQ系统、自动问答系统、交互式系统,结合客服人员的辅助向用户提供所需服务。近年来,因其广阔的市场价值及应用前景,受到人们广泛的关注。  本文主要研究面向在线客服系统的两项关键技术:FAQ模块中的问句相似度计算和自动问答模块中的候选答案句抽取。  FAQ系统是早期问答系统的一种应用形式,现在在线客服系统中多处于一种辅助的角色,同时也是提高客服系统性能的一种重要手段。FAQ的数据通常是一些问答对的集合,问句相似度的计算是FAQ系统能否准确理解用户问题,并做出正确回答的关键所在。本文采用依存句法分析和词义相似度计算相结合的方式,通过分析句子中关键句法成分的匹配度配合词义相似度,计算问句间的相似度。实验表明该方法取得了较好的效果,更适合于在线客服系统。  对于候选答案句的提取我们采用了两种方法:基于树核的方法和基于支持向量机SVM的方法。前者利用句法分析技术分析句子的依存结构,通过依存关系树和依存短语树的匹配度计算问句和候选句的相似度,作为提取候选答案句的依据;不同于基于树核方法只使用句法分析结果,后者通过综合分析提取问句和候选句间的词、词性、词义、句法、疑问词等特征,训练SVM模型,通过模型提取候选答案句。实验表明这两种方法相较于其他方法,在我们的实验数据上均取得了较好的效果,同时实验证明基于SVM的方法要优于基于树核的方法。  最后我们介绍了一种在线客服系统的框架,结合SVM提取候选答案句的方法,提出了能够更好的利用系统中客服和客户交互的问答记录的增量式SVM抽取候选答案句的方法,并介绍了该方法的主要流程。随后在线客服系统环境下实验了上面两种提取候选答案句的方法,也取得了更好的效果。
其他文献
随着Internet呈爆炸式的增长,人们经常会遇到网络拥塞和服务质量低等一系列问题。因此,对大规模网络行为研究已是当务之急。网络模拟作为计算机网络研究的主要手段,以周期小
随着半导体技术和计算机体系结构技术的发展,分片式处理器逐渐成为多核领域的一个发展方向。分片式处理器有效解决和缓解了线延迟、功耗、可扩展性等现代处理器面临的主要问
在组播路由协议中,PIM-SM协议以其协议无关性、组成员显示加入的特性以及共享树(RPT)向最短路径树(SPT)切换等机制,成为了目前应用最为广泛的域内组播路由协议。但是随着网络技术的
随着互联网上信息的快速增长,信息抽取技术越来越被关注,而实体关系的抽取又是这些任务中非常重要的一个子任务。经研究发现由于传统的实体关系抽取技术面向句子级,只在一个
低秩矩阵近似,是机器学习、数值优化、理论计算机科学等领域的重要研究方向。它既有严格的理论基础,在实际问题中,也有着广泛的应用。低秩矩阵近似的本质是利用高维空间中的
云计算使用海量资源快速为用户部署和执行资源密集型任务,但是一批新应用在要求大量计算资源的同时,也需要极低的交互延迟。由于广域网的限制,用户设备与云数据中心的交互延
随着现代科技的飞速发展,手机的存储容量快速增大,手机中存储数据的种类和数量也成爆炸式增加,如何快速、准确的将用户需要的信息呈现出来成为一个急需解决的问题。然而由于
当前,多媒体应用越来越广泛,多媒体技术发展迅速。视频编码技术深入生活的方方面面。随着高清技术的发展,高清终端显示设备的应用越来越多,而标清视频广泛存在在视频的各种资
数据仓库作为一种分析型的数据环境,越来越受到人们的重视。数据仓库与操作型数据库环境相分离。相对于操作型环境而言,分析型环境对数据查询的速度提出了更高的要求。相对于
贝叶斯学习作为机器学习的重要分支,为解决数据的建模问题提供了一种重要的方法。其中的稀疏贝叶斯学习算法凭借其概率的预测和稀疏的模型等特点,成为机器学习中的经典算法之