论文部分内容阅读
随着科技的发展,人们对于互联网和科技产品的依赖越来越严重,用户的使用需求也正在不断的提高,用户以最自然的表达方式与机器进行交互成为一种趋势。这对人机交互来说是一个新的挑战,IBM公司的问答系统Watson和苹果公司的智能语音助手Siri的出现,将人机交互的研究推向了一个新的起点:用户自然状态下语言的理解。相比于英文,中文在人机交互方面的研究起步较晚,基础薄弱,本文分别从领域常问问题集的问答系统和口语理解两个层面对中文的人机交互进行了一些研究。
搜索引擎是互联网用户最常使用的工具,但是搜索引擎只对关键词进行搜索,并未涉及到用户输入的语义意图,所以搜索引擎常常会返回一些与用户意图无关的网页,需要用户进行过滤,并且需要用户从相关的文本网页中查找答案。20世纪中期,欧美科学家们就开始对问答系统进行研究,本文对中文的领域常问问题集的问答系统进行了研究。传统的做法是基于问句相似度的方法,将问答对库中与用户输入相似度最大的问题的答案作为返回答案,但此方法仍只涉及词语层面。本文研究如何理解问句意图以及如何从知识库中提取答案,首先我们对问句进行浅层句法分析和模板匹配将得到语义意图向量,将意图向量转换成本体查询语句在领域的知识本体库中查询推理答案。在实验中我们将常问问题集中问题分成五大类,获得的问句语义向量的准确率和召回率分别为94.66%和72.62%。由于本体的标注需要大量的人力,我们只标注了一个实验领域本体,在答案抽取模块我们对每一类的问句进行了实验演示,实验验证了本文答案抽取方法的可行性。
随着移动互联时代的到来和语音识别技术的日益成熟,通过语音的交互方式来使用移动终端成为一种趋势。如何理解用户自然状态下的口语输入,传统的做法是手写上下文无关的文法规则,但是文法规则的书写需耗费大量的人力和物力,并且很难维护和更新。本文提出了一种采用支持向量机和条件随机场串行结合的方法,把口语任务理解分解为任务发现和信息抽取两个过程,并最终将任务表达成语义向量的形式。最终对“讯飞语点”语音助手用户返回的八个不同的任务种类的数据进行了测试,在一比一的噪声中识别任务语义表达的准确率和召回率分别达到了90.29%和88.87%。