基于Ontology的自动问答系统关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:menangchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,特别是WWW的飞速发展,网上信息资源越来越丰富,网络已经成为了一个全球最大的分布式的信息库,为信息共享、资源共享提供了一个良好的平台,是人们获得信息的必要途径和重要手段。但是由于网上信息浩繁,具有分布分散、重复性大、动态变化、结构复杂、缺乏统一管理等特点,使得用户根本无法完全了解庞大的、瞬息万变的信息资源。随着大量的信息涌入网络,用户信息的查找与获取也就变得越来越困难,出现了“信息迷失”、“信息过载”等问题。搜索引擎是目前人们进行网络信息检索的主要工具,它在给人们带来很大便利的同时,也日益暴露出许多弊端:关键字匹配的方式检索准确率不高,返回的相关文档过多且重复性高。在这种情况下,传统的基于关键字匹配的搜索引擎已经不能满足用户需求,人们期盼着新的,具有智能处理能力的、结果表示形式更为简洁的新一代搜索引擎的出现。 在这种需求的推动之下,本文致力于将自动问答处理技术和Web信息检索技术相结合,以提高现有搜索引擎对信息的智能处理能力,提供更加人性化的人机交互方式,用简洁、准确的答案,自动地回答用户用自然语言提出的问题,帮助人们快速而有效地找到所需的信息。 本文在国家863“面向奥运的多语言信息服务系统”项目的支持下,展开对面向Web信息的自动问答系统处理技术的研究。论文在分析自动问答系统中需要解决的关键性问题以及现有处理方法中存在不足的基础上,展开了面向Web信息的自动问答关键技术的研究。文中针对问答系统的特性,以Ontology处理技术为基础,将自然语言处理、信息检索和信息抽取的思想方法和相关处理技术有机融合,取长补短,以解决问答系统中存在的准确性不高的问题,提高系统的处理能力和效率。 论文的主要工作可以概括为以下几点:●针对面向Web信息的自动问答系统中知识获取的问题,提出了建立领域Ontology,采用简洁的概念关系模型(Concept-RelationModel),描述领域知识的基本结构。基于领域Ontology可以对大规模真实文本进行自动处理,利用领域知识提高问答系统的问题分析和推理,更加准确地获取问题的答案。 ●针对面向Web信息的问答系统中对于大规模自然语言文本的处理问题,提出基于Ontology进行自然语言理解的思路,利用系统Ontology中拥有的领域知识,对自然语言文本进行各个处理层面上的消歧,进行简单的文本推理,提高系统对自然语言文本和用户问题的理解能力。 ●针对面向Web信息的问答系统处理速度的问题,提出将信息检索和信息抽取技术相结合,在文本预处理阶段基于Ontology知识框架结构进行自然语言文本的信息抽取,标注抽取信息的语义类型,在此基础上进行文本信息标注,以提高问答系统中信息检索和答案抽取的处理速度。 ●针对问答系统中对于信息检索准确率要求高的特性,在分析了布尔检索、向量空间检索、概率检索各种模型优缺点的基础上,提出了以概念检索为主的潜在语义索引模型,结合基于Ontology的文本隐性知识分析、文本语法结构分析提高检索模型中文本和查询的表示能力,从而提高信息检索的准确率。 最后,结合具体项目研究背景,将本文的研究思路应用到面向奥运的Web信息检索系统中去,设计了一个原型系统OntoQA。与传统的信息检索工具相比OntoQA支持自然语言提问,不限制用户提问表述方式,实现一个方便、自然、人性化的人机交互方式。用户查询结果的表示方式不再局限于仅仅给出所有与查询相关文档或链接,而是从相关信息资源中提炼出问题的直接答案,以更加简洁、明了的形式返回给用户,提高用户信息检索的效率。
其他文献
近年来,国内雾霾天气频发,范围广,时间长,严重影响民众的身体健康,同时也对交通、电力和农业造成的较大威胁,雾霾的治理已经引起了政府和社会的高度关注。但由于各大城市空气
本论文课题是国家863课题:“基于国产Linux的电子办公基础与外网集成技术研究”的一部分,主要研究电子政务基本理论及其关键技术,包括三个方面的内容:电子政务平台模型与体系结构
  本文在对互联网远程教育进行组播需求分析的基础上,以应用层组播为跨域手段,结合IP组播在域内的传输优势,设计一个适用于互连网远程教育的应用层组播模型。  主要成果有:(1
该文以防御网络攻击为目标,分析与研究网络动态防御体系,探讨具有典型代表性的网络攻击的防御技术,其主要成果概括如下:1.提出了基于入侵诱骗的网络动态防御体系,对安全服务
程序内存错误的检测是软件测试的重点和难点之一.内存泄漏的产生和体现具有隐蔽性和积累性的特征,往往容易被人们忽视.C/C++程序设计语言能够让程序员灵活而高效地进行动态堆
分布式系统因为其独特的优势,在计算机领域内已经得到广泛的应用.中科院"十五"信息化建设重大项目"科学数据库及其应用系统"是分布式信息资源共享的典型代表,它的目标是建设
软件建模已经成为软件开发过程中一个不可缺少的环节.软件建模工具也成为了软件开发中重要的辅助工具.运用软件建模工具可以快速高效地建立正确的模型,从而提高软件生产效率.
随着以太网技术的飞速发展,其应用也日益广泛.目前以太网技术既是使用最广泛的组网技术,也几乎毫无例外地成为用户计算机入网的接入技术.然而以太网接入的特点是用户只要能接
随着人们对网络依赖性的增加,移动用户都希望能够以一种更加灵活的方式随时随地的访问企业网络资源和Internet资源.由于传统IP网络中大多采用网络前缀判断路由的方法,因此移
网络化已成为嵌入式系统发展的一大趋势,而通过Internet对嵌入式设备进行远程监控和管理则是嵌入式设备网络化技术的一大应用。嵌入式实时操作系统和嵌入式网络技术应用是非