面向开放域问答的答案抽取方法及相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lqh2012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向开放域的问答系统是自然语言处理领域中最具有挑战性的热点研究问题之一。随着互联网的飞速发展与普及,信息量的急速膨胀,有效查找和利用这些信息的迫切需求使得信息检索与信息抽取技术更加重要。但传统的检索系统以及搜索引擎存在的一些弊端随着信息量的不断膨胀,日渐突出,给用户带来了诸多的不便,基于关键词的信息检索系统已经无法满足人们的需要。人们越来越渴望只要直接提出自然语言问句,就能准确地获取问题的答案,这也正是开放域问答系统的最终目标。面向开放域的问答系统被称为下一代搜索引擎的发展方向,具有重大的现实意义。问答系统既允许用户以自然语言提问,又能够向用户返回准确的答案,而不是一些内容相关的文档。这个任务看似简单,但对于计算机的信息处理技术具有很大的挑战性。本文正是在这种前提下,对面向开放域的问答技术进行了探索性研究。  国际TREC评测是计算机领域全球著名的评测会议,它为推动信息处理技术的发展起到了十分重要的作用。其中,面向开放域问答系统的评测任务是目前国际上面向问答系统组织规模最大,系统水平最高,最具权威性的公共测试平台。从1999年开始,到现在已经进行了八届比赛。本文若干技术的研究正是以TRECQA评测为依托平台,面向所开发的问答系统—InsunQA系统,将其作为系统的主要支撑技术。InsunQA问答系统面向大规模海量数据集,实现了对自然语言问句的答案精确抽取,并顺利完成两届TRECQA评测任务。本文的研究涉及系统若干关键技术的实现,具体包括以下几个方面:  第一,针对问题分类任务,提出了基于粗糙集理论的问题分类方法。通过粗糙集理论所支持的多个知识获取步骤(如:数据预处理、属性与值约简、规则生成、数据依赖关系获取等),实现了问题分类规则的自动生成与优化,避免了大量手工整理规则的劳动以及人为选择特征的主观干扰,具有分类精度高和自动化程度好的特点。  第二,词变体和缩略词的识别是对问句进行扩展的主要手段之一。针对这个问题提出了基于形态学与语义计算相结合的词变体、缩略词识别方法。通过采用无监督的结构化学习策略,避免了人工编写词典的人力开销。同时本方法没有任何语言学知识介入,识别效率因而得到了一定的提高。  第三,答案抽取是问答系统的重要组成部分,它是问答系统区别于传统信息检索系统的标志。答案抽取的准确率对最终问答系统的效果起着决定性的作用。本文针对形式化答案抽取技术进行了深入研究。阐述了基于人工方法与模式学习相结合的模式库构建方法,并重点研究了影响形式化答案抽取效果的一些主要因素,如模式泛化、模式评价以及模式标记可靠性等问题。其中,创造性地提出基于模式主成份不变原则的泛化处理技术,显著地提高了答案抽取的准确率。  第四,通过对答案抽取研究的进一步扩展,提出了聚类分层抽样逻辑回归的预测模型。该模型主要针对失衡数据集的预测分析。模型采用分层抽样的方法对进行预测的样本进行采集,并创造性地采用分割聚类的思想解决了分层抽样中层次划分这个难点问题,使得层次的划分更加具有理论依据;由于采用分层抽样条件下传统逻辑回归模型会造成估计值的偏差,因此,本文提出失衡数据集下采用分层抽样逻辑回归的一种估计偏差补偿方法,理论分析了估计偏差与数据失衡之间的关系。最后,本文将预测模型实际用于答案抽取应用中,实现准确抽取问题答案的功能。  第五,答案抽取是失衡数据集分类的典型应用,通过对失衡数据集分类问题的深入研究,本文为失衡数据集的分类问题提出了一套完整的解决方案,即基于混合策略的失衡数据集分类方法。首先,通过采用聚类抽样的方法对失衡数据进行重采样,在保证很小信息损失的前提下有效地平衡了样本偏斜状态,克服了传统采样方法存在的缺乏理论依据,随机性强,人为主观性干扰,信息损失等不足;其次,针对现实数据中存在的数据混叠现象,提出了基于K近邻规则的样本剪枝算法,提高了SVM分类模型的泛化能力;最后提出基于核函数变换的SVM分类模型,使分类模型更好地适应失衡数据集。
其他文献
变压器是电力工业中的关键设备,其正常运行是保证电力供应与社会正常生产生活的基础,而变压器故障诊断是保证变压器正常运行的重要手段。变压器故障是变压器本身及其应用环境综
复用技术能提高开发效率和软件质量,软件演化技术能有效降低维护成本,尽可能地利用现有软件资产,这些技术是解决软件危机的重要手段。而框架做为应用系统的基础平台,应当整合这些
数字家电控制系统的功能是采用一种访问方式,通过控制系统对数字家电的本地监测和管理,实现对家电设备进行远程控制。其好处是方便使用、节约资源及对设备的安全使用。 数字
随着Internet技术的发展,安全协议在电子商务和电子政务中的应用越来越多。与此相应的就是人们对协议的安全性更加关注,尤其是在特殊环境下如何建模和分析安全协议显得尤为重
随着互联网的飞速发展,基于电路交换的公共交换电话网(PSTN)逐步被基于分组交换的下一代网络(NGN)替代。NGN是基于IP网络的电信网络,它的出现是电信网络中的巨大变革。软交换
发展中国家的通信设备市场是通信行业的新兴市场,主要集中在亚洲的大部分国家、非洲的全部、拉美和东欧一些国家,这些国家数量很多,目前占全球通信设备市场的20%多,未来这些
高动态GPS卫星信号模拟器可模拟产生接收机收到的各颗GPS卫星信号,是高动态GPS接收机研制与测试不可缺少的测量设备;同时也可用于系统级GPS仿真实验,为最终确定GPS测量方案提供
近年来,随着RFID技术的快速发展,RFID技术在应用领域的研究也蓬勃开展,使用RFID技术进行室内定位就是研究领域之一。定位技术根据应用地理范围不同,分为室外定位技术和室内定位技
基于内容的图象检索技术是近年来国内外在图象数据库研究中出现的一个新热点问题。本文围绕图象特征提取和图象相似性度量两个问题展开论述。以Gabor基小波提取图象特征理论
基于相似度匹配的移动社交网络(PMSN)在移动设备日益普及的今天,其应用越来越广泛,针对它的相关研究也越来越热门。而在相似度匹配的过程中,对于用户个人属性的隐私保护和对