论文部分内容阅读
面向开放域的问答系统是自然语言处理领域中最具有挑战性的热点研究问题之一。随着互联网的飞速发展与普及,信息量的急速膨胀,有效查找和利用这些信息的迫切需求使得信息检索与信息抽取技术更加重要。但传统的检索系统以及搜索引擎存在的一些弊端随着信息量的不断膨胀,日渐突出,给用户带来了诸多的不便,基于关键词的信息检索系统已经无法满足人们的需要。人们越来越渴望只要直接提出自然语言问句,就能准确地获取问题的答案,这也正是开放域问答系统的最终目标。面向开放域的问答系统被称为下一代搜索引擎的发展方向,具有重大的现实意义。问答系统既允许用户以自然语言提问,又能够向用户返回准确的答案,而不是一些内容相关的文档。这个任务看似简单,但对于计算机的信息处理技术具有很大的挑战性。本文正是在这种前提下,对面向开放域的问答技术进行了探索性研究。 国际TREC评测是计算机领域全球著名的评测会议,它为推动信息处理技术的发展起到了十分重要的作用。其中,面向开放域问答系统的评测任务是目前国际上面向问答系统组织规模最大,系统水平最高,最具权威性的公共测试平台。从1999年开始,到现在已经进行了八届比赛。本文若干技术的研究正是以TRECQA评测为依托平台,面向所开发的问答系统—InsunQA系统,将其作为系统的主要支撑技术。InsunQA问答系统面向大规模海量数据集,实现了对自然语言问句的答案精确抽取,并顺利完成两届TRECQA评测任务。本文的研究涉及系统若干关键技术的实现,具体包括以下几个方面: 第一,针对问题分类任务,提出了基于粗糙集理论的问题分类方法。通过粗糙集理论所支持的多个知识获取步骤(如:数据预处理、属性与值约简、规则生成、数据依赖关系获取等),实现了问题分类规则的自动生成与优化,避免了大量手工整理规则的劳动以及人为选择特征的主观干扰,具有分类精度高和自动化程度好的特点。 第二,词变体和缩略词的识别是对问句进行扩展的主要手段之一。针对这个问题提出了基于形态学与语义计算相结合的词变体、缩略词识别方法。通过采用无监督的结构化学习策略,避免了人工编写词典的人力开销。同时本方法没有任何语言学知识介入,识别效率因而得到了一定的提高。 第三,答案抽取是问答系统的重要组成部分,它是问答系统区别于传统信息检索系统的标志。答案抽取的准确率对最终问答系统的效果起着决定性的作用。本文针对形式化答案抽取技术进行了深入研究。阐述了基于人工方法与模式学习相结合的模式库构建方法,并重点研究了影响形式化答案抽取效果的一些主要因素,如模式泛化、模式评价以及模式标记可靠性等问题。其中,创造性地提出基于模式主成份不变原则的泛化处理技术,显著地提高了答案抽取的准确率。 第四,通过对答案抽取研究的进一步扩展,提出了聚类分层抽样逻辑回归的预测模型。该模型主要针对失衡数据集的预测分析。模型采用分层抽样的方法对进行预测的样本进行采集,并创造性地采用分割聚类的思想解决了分层抽样中层次划分这个难点问题,使得层次的划分更加具有理论依据;由于采用分层抽样条件下传统逻辑回归模型会造成估计值的偏差,因此,本文提出失衡数据集下采用分层抽样逻辑回归的一种估计偏差补偿方法,理论分析了估计偏差与数据失衡之间的关系。最后,本文将预测模型实际用于答案抽取应用中,实现准确抽取问题答案的功能。 第五,答案抽取是失衡数据集分类的典型应用,通过对失衡数据集分类问题的深入研究,本文为失衡数据集的分类问题提出了一套完整的解决方案,即基于混合策略的失衡数据集分类方法。首先,通过采用聚类抽样的方法对失衡数据进行重采样,在保证很小信息损失的前提下有效地平衡了样本偏斜状态,克服了传统采样方法存在的缺乏理论依据,随机性强,人为主观性干扰,信息损失等不足;其次,针对现实数据中存在的数据混叠现象,提出了基于K近邻规则的样本剪枝算法,提高了SVM分类模型的泛化能力;最后提出基于核函数变换的SVM分类模型,使分类模型更好地适应失衡数据集。