论文部分内容阅读
随着Internet的快速发展,特别是WWW的飞速发展,网上信息资源越来越丰富,网络已经成为了一个全球最大的分布式的信息库,为信息共享、资源共享提供了一个良好的平台,是人们获得信息的必要途径和重要手段。但是由于网上信息浩繁,具有分布分散、重复性大、动态变化、结构复杂、缺乏统一管理等特点,使得用户根本无法完全了解庞大的、瞬息万变的信息资源。随着大量的信息涌入网络,用户信息的查找与获取也就变得越来越困难,出现了“信息迷失”、“信息过载”等问题。搜索引擎是目前人们进行网络信息检索的主要工具,它在给人们带来很大便利的同时,也日益暴露出许多弊端:关键字匹配的方式检索准确率不高,返回的相关文档过多且重复性高。在这种情况下,传统的基于关键字匹配的搜索引擎已经不能满足用户需求,人们期盼着新的,具有智能处理能力的、结果表示形式更为简洁的新一代搜索引擎的出现。
在这种需求的推动之下,本文致力于将自动问答处理技术和Web信息检索技术相结合,以提高现有搜索引擎对信息的智能处理能力,提供更加人性化的人机交互方式,用简洁、准确的答案,自动地回答用户用自然语言提出的问题,帮助人们快速而有效地找到所需的信息。
本文在国家863“面向奥运的多语言信息服务系统”项目的支持下,展开对面向Web信息的自动问答系统处理技术的研究。论文在分析自动问答系统中需要解决的关键性问题以及现有处理方法中存在不足的基础上,展开了面向Web信息的自动问答关键技术的研究。文中针对问答系统的特性,以Ontology处理技术为基础,将自然语言处理、信息检索和信息抽取的思想方法和相关处理技术有机融合,取长补短,以解决问答系统中存在的准确性不高的问题,提高系统的处理能力和效率。
论文的主要工作可以概括为以下几点:●针对面向Web信息的自动问答系统中知识获取的问题,提出了建立领域Ontology,采用简洁的概念关系模型(Concept-RelationModel),描述领域知识的基本结构。基于领域Ontology可以对大规模真实文本进行自动处理,利用领域知识提高问答系统的问题分析和推理,更加准确地获取问题的答案。
●针对面向Web信息的问答系统中对于大规模自然语言文本的处理问题,提出基于Ontology进行自然语言理解的思路,利用系统Ontology中拥有的领域知识,对自然语言文本进行各个处理层面上的消歧,进行简单的文本推理,提高系统对自然语言文本和用户问题的理解能力。
●针对面向Web信息的问答系统处理速度的问题,提出将信息检索和信息抽取技术相结合,在文本预处理阶段基于Ontology知识框架结构进行自然语言文本的信息抽取,标注抽取信息的语义类型,在此基础上进行文本信息标注,以提高问答系统中信息检索和答案抽取的处理速度。
●针对问答系统中对于信息检索准确率要求高的特性,在分析了布尔检索、向量空间检索、概率检索各种模型优缺点的基础上,提出了以概念检索为主的潜在语义索引模型,结合基于Ontology的文本隐性知识分析、文本语法结构分析提高检索模型中文本和查询的表示能力,从而提高信息检索的准确率。
最后,结合具体项目研究背景,将本文的研究思路应用到面向奥运的Web信息检索系统中去,设计了一个原型系统OntoQA。与传统的信息检索工具相比OntoQA支持自然语言提问,不限制用户提问表述方式,实现一个方便、自然、人性化的人机交互方式。用户查询结果的表示方式不再局限于仅仅给出所有与查询相关文档或链接,而是从相关信息资源中提炼出问题的直接答案,以更加简洁、明了的形式返回给用户,提高用户信息检索的效率。