论文部分内容阅读
随着计算机的普及和互联网的快速发展,网上信息呈现几何式增长,如何在大量、复杂的信息中快速、准确地检索到有用的信息是我们迫切需要解决的问题。传统的搜索引擎取得了一定的成功,但返回的信息太繁琐,难以满足当代人快速、准确的需求。自动问答系统综合运用了网络通信、人工智能、信息检索和自然语言处理等技术,具有智能、准确、简洁等优点,有效地弥补了传统搜索引擎存在的缺陷。面向国家科技计划项目申报领域,本文深入研究了自动问答系统的关键技术,主要工作有以下几点:(1)提出了一种基于专业词词典和ICTCLAS的分词方法。首先根据领域知识建立专业词词典,然后采用基于词典的分词方法中的正向最大匹配算法进行句子切分,最后对词典中的未登录词,采用ICTCLAS分词工具进行分词并标注词性。实验结果表明,该方法具有较高的正确率和召回率,特别是对专业词汇的识别。(2)研究了基于《知网》的词语语义相似度算法。首先根据《知网》的义原距离求出各个概念的义原相似度,继而求出词语的概念相似度,最终得出词语语义相似度。(3)提出了一种多尺度多特征融合的句子相似度计算方法。首先对现有的基于向量空间模型的TF-IDF方法和基于语义的方法进行改进,然后从句子的句形、语义和句法结构三个方面出发,综合考虑句子的词频、语义、长度、词形、词序和距离六个特征,提出了一种多尺度多特征融合的句子相似度计算方法,最后采用遗传算法求取特征之间的最优权重组合。实验结果表明,该方法较现有的句子相似度计算方法在召回率和正确率方面都有显著的提高。(4)设计并实现了一个面向国家科技计划项目申报信息咨询的自动问答原型系统。该系统完成了常用问题库(Frequently Asked Question,FAQ)的建立、问题预处理、候选问题集的建立和句子相似度的计算,验证了本文提出方法的可行性和有效性。