论文部分内容阅读
基于FAQ库的特定域自动问答系统由于相对于开放域自动问答系统更具实用性而成为自然语言处理领域的研究热点,而其中最关键的技术是问句相似度计算。在特定领域中,用户的提问可以根据其特点划分为两类:一类是以询问领域概念、实体定义等为目的,特点为结构简单且大多包含领域专有词语;另一类是先描述提问背景并在此基础上提出问题,特点为情景的相似度计算结果很大程度上影响到整个问题相似度计算的结果并且情景中很少包含领域专有词语。而当前相关研究对这两类问题多采用相同的相似度计算方法,因此计算效果不够理想。本文针对这种情况,提出一种根据问题特点划分问题模式的新方法,并在此基础上,对不同类问题提出相应的针对性解决方案,以进一步提高面向特定域问答系统的回答准确率和运行效率。本文的主要研究内容包括:首先,本文根据面向特定领域中的用户问题特点,将问题划分为两种模式:简洁模式和情景模式。并在此基础上提出了一种基于规则的问题模式判别算法,算法主要根据用户问题中包含的句段数和疑问词或疑问句特征词出现的位置生成用户问题特征向量,并根据此向量来判别问题模式,为后续问句相似度计算提供了基础。其次,简洁模式问题具有结构简单并包含领域专有词语的特点,由于现有的句子相似度计算方法大都基于分词技术,而领域专有词语不能被正确切分以致影响计算精度。为此本文提出了一种新的计算方法,本方法不需要分词而是通过获取参与计算的两个句子中的最长公共子串集合并在此基础上进行相似度计算。再次,本文针对情景的相似度计算对于情景模式问题的相似度计算具有重要作用的特点,提出了根据用户问题特征向量进行情景和问题的分离方法,另外为了同时兼顾到计算精确度和实用性,设计了一种基于倒排索引的改进布尔模型检索方法并与《同义词词林》语义词典相结合进行情景相似度计算,最后将情景相似度和问题相似度相结合来评估情景模式问题之间的相似度。最后,本文使用从福建省国税局在线咨询系统收集的税务问题语料对本文所提出的一系列算法进行验证,实验结果表明,本文提出的问句相似度算法在处理含有领域专有词汇的问题比基于分词的算法效果更好,另外本文使用倒排索引结合《同义词词林》的计算方法相比基于《知网》语义词典的计算方法在保证了计算精确度的同时复杂度更低且易于实现。