论文部分内容阅读
快速发展的因特网为人们提供了丰富的信息资源。虽然人们可以在因特网上通过搜索引擎找到他们所需要的信息,但是在获得信息的同时,也附带来了大量的无用信息,需要他们进一步地去甄别。与搜索引擎相比,中文问答系统允许用户以自然语言的方式进行提问,返回给用户的是精准性的答案,不需要用户再去甄别答案的准确性,缩短了用户获取信息的时间,可以更好地满足人们的需求。
中文问题理解是中文问答系统的基础,只有在正确分析和理解问题的基础上,才有可能将正确的答案返回给用户。问题理解包括问题预处理、句法分析、问题分类、句型分析和浅层语义分析等处理过程。其中问题分类和句型分析作为问题理解中非常重要的两个处理过程,问题分类的准确与否直接影响到最终答案的准确性;句型分析确定了答案的生成模式,其中的句型成分决定了答案的重要程度。本文主要进行了以下三个方面的研究工作:
(1)针对支持向量机问题分类中存在冗余数据、数据量维数大、处理速度慢等缺点,提出了一种基于粗糙集理论和支持向量机技术相结合的CRV问题分类方法。该方法首先利用粗糙集理论中的属性约简方式预处理样本数据,消除冗余的特征向量,有效地降低样本数据空间的维数,然后将约简后的最小特征量作为支持向量机的输入量,有效地提高了支持向量机收敛速度和分类的精度。
(2)对问题进行分类之后,在同一种类型下,针对同一个问题焦点的提问可以有很多种问法,为了使同类型同焦点的问题可以按相同的方法进行处理,这样既可以减少问题库的存储空间,又加快了回答问题的速度。因此本文对同类型和同焦点不同问法的问题进行分析,将用户提出的问题转为问题标准型QSF进行处理,并相应地给出了问题答案的句型形式,使得问题和答案在形式上相一致。
(3)将上述提出的CRV分类方法和问题标准型QSF应用于我们设计开发的《计算机网络》课程的个性化学习系统中的自动问答系统上,运行结果表明利用CRV分类方法和问题标准型QSF来理解问题,有较快的回答问题的速度和较高的准确率,实现了对问题的准确理解。