论文部分内容阅读
随着人工智能的发展,人机或者多人聊天会话的内容形式也越来越复杂,如何快速有效的获取这些会话想要表达的主题是一个值得深入探讨的问题。中文会话分割和会话抽取这两个技术近年来已经成为了新热点。在人机对话系统中,用户发送的消息上下文特别重要,因为其为对话提供了有用的背景信息,所以利用上下文可以有效地对会话进行分割。在短文本信息流会话抽取中,需要利用多种策略对多人会话进行严格分割,并对多人对话之间的短文本信息流中的内容,时间以及用户关系三类重要的特征进行研究。本文主要研究工作和创新如下: 第一、首先提出虚拟句子策略、当前句子内部策略和基于固定窗口大小的上下文语境策略,将虚拟句子策略与改进后的TextTiling算法相融合进行中文会话分割。该方法通过对会话内容噪声的观察,把用户的输入信息和机器的应答在词向量训练的时候视作虚拟句子,从而将多轮聊天的内容联系起来。实验结果表明:虚拟句子策略优于其他两种策略,能够有效地分割会话而且可以更好地利用来自会话的背景信息。然后提出最大值策略与平均值策略两种会话相似度值的表示策略。该策略将句子级别的相似度用每一个词语的最大相似度值的总和或者其平均值来表示,从而加强两个连续句子之间的交互性。实验结果表明:最大值策略的结果要优于其他两种方法,能够有效地捕获两个连续话语之间的相互作用。最后通过两种策略与改进后的TextTiling算法融合,实验结果表明,与原始的TextTiling、MMD算法以及随机分割的方法相比,融合后有较好的F-measure值,能够有效地对会话进行分割。 第二、会话抽取通常是在会话分割之后进行的,所以本文首先提出利用加权策略和平均值策略来表示会话消息之间的语义相似度的值,并对原始数据的时间、内容以及用户关系三个特征上训练和统计得到会话分割阶段的用户亲密度阈值和相邻会话时间间隔阈值,对会话进行严格地分割。然后将内容相关度与时间相关度结合成综合相关度,并利用聚类算法得到抽取结果。本文在CBOW模型和Skip-gram模型训练词向量的结果上对会话抽取结果进行对比分析。实验结果表明:在Skip-gram模型和平均值策略的融合下会话抽取方法在局部阈值上的性能要优于SPTSWKV算法。