论文部分内容阅读
问答系统(Question Answer System)能为人们提供自然语言的问句方式的提问,直接返回答案,而不是大量网页。相对于传统搜索引擎来说,问答系统能够更好地表达用户的需求,适应用户的习惯,回答信息也更准确,更快捷,更高效,其克服传统搜索引擎存在的缺陷,是当前研究的热点问题。问句分类是问答系统的一个重要组成部分,它能为问答系统的答案抽取环节提供答案的选取策略,所以分类的准确性直接影响问答系统的性能。本文对问句分类中特征选取与降维、问句属性核函数等方面开展了系列的研究和探讨。主要成果如下:1、针对问句分类过程中词袋方式选取特征所面临的特征空间维数过高以及数据稀疏的问题,本文提出了一种结合词语相关性与流形学习的特征提取方法,该方法首先选取训练语料库中文档频率(DF)值高的词作为分类特征的属性维,其次以词汇语义相似度方法获取问句特征空间特征值,再次使用有监督局部线性嵌入算法对特征空间进行非线性降维,从而获得问句分类特征向量,最后使用支持向量机建立问句分类模型,在旅游领域7000多中文文句上的实验结果表明。本文所提方法能够有效解决特征空间维数过高与数据稀疏问题。2、在使用支持向量机的标准核函数进行问句分类过程中,问句的内在结构常常被忽略。针对以上问题,本文提出了一种结合问句依存关系与词性的属性核函数方法,该方法首先提取问句中的词、词性、核心词依存关系、疑问词依存关系等特征,其次通过问句中的词的依存关系,词性以及共有的依存路径进行计算核函数的值,最后采用SMO算法优化求解。在旅游领域中文问句进行了不同核函数的中文问句分类对实验,结果表明提出的核函数能够有效利用问句内在依存结构,提高模型的训练速率以及分类准确率。3、采用本文中所提的算法,分别设计并实现了结合流形学习的问句分类系统,基于问句属性核函数的问句分类系统。