面向Web语料的因果知识获取研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:helpothers
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
常识获取是人工智能领域的一个核心难题,其目标是构建面向应用的大规模常识知识库,以实现真正的智能系统。为了突破知识获取“瓶颈”,常识获取的方式经历了由人工编辑到自动获取的转变,其面向的知识源也过渡到文本这一知识载体。而Web语料以其大规模性、易获得性和领域无关性等特点,为海量常识的获取提供了新的契机。   因果关系作为一种重要的常识知识,是大规模知识库构建中不可或缺的一部分。基于因果知识的推理在自动问答、信息检索等领域具有重要的应用价值。因果知识关注事件之间的关系,其获取难度较大。因此,目前的研究大多面向有限的封闭语料,在大规模因果知识的获取、验证、表示等方面尚缺乏系统的分析和研究。   针对上述问题,本文系统地研究了从Web语料中获取因果知识的理论和方法,具体研究内容包括以下方面:   (1)研究基于Web查询模式的因果关系抽取方法。   面向Web的因果关系抽取分为因果关系的识别和提取两个阶段。在关系识别阶段,使用包含因果提示词的Web查询模式,从Web语料中识别描述因果关系的文本片段。在关系提取阶段,提出基于贝叶斯学习的边界识别方法,用于划分因果事件的边界,实现事件序对的提取;同时,针对关系提取中存在的数据缺失问题,提出基于决策树学习的缺失主体识别方法,通过构造多元分类器识别并填充事件主体,提高了因果关系提取的准确率和召回率。实验表明,本文给出的Web查询模式的命中率和查全率较高,满足大规模因果知识获取对“数量”和“效率”的要求。   (2)研究基于依存句法分析的事件抽取方法。   针对因果事件的表示粒度问题,定义了一种事件五元组表示模型,并提出了基于依存句法分析的事件抽取方法。该方法利用事件表达式的依存句法结构与事件元组结构之间的映射关系,使用以依存关系路径为主要特征,以词性、词类等为辅助特征的事元抽取规则,从事件依存树中抽取相应的事元。同时,针对事件抽取任务中的级联错误,采用基于事元语义相似度的层次聚类方法,分析事件的语义约束,进一步提高了事件抽取的准确率。   (3)研究因果知识的评估方法。   为了保证因果知识获取的精度,从“正确性”和“因果性”两方面对已获取的知识进行评价。一方面,针对知识描述是否“正确”的问题,提出了基于最大熵模型的系统可信度估计方法。该模型利用了知识获取系统各个模块的相关特征,通过设定可信度阈值,有效地提升了系统的输出精度。另一方面,针对知识是否表达“因果关系”的问题,提出了融合事件共现特征和结构特征的统计模型,对知识进行评分并排序。   (4)研究基于类比学习的因果关系扩充方法。   对于给定的目标事件,因果关系的类比学习过程包括类比事件的选择和相关事件的映射,其关键问题是事件相似度的度量。本文从“语义”和“共享原理”两个角度度量事件的相似性,以实现因果关系的累积类比。为了选择合适的扩充对象,设定扩充的终止条件,将已获取的因果关系组织成图的形式。分析因果关系图的特殊性质,并对图中的事件和关系进行整体度量。基于种子因果关系进行知识扩充,降低了单一获取的复杂度和难度。
其他文献
伴随着空间位置技术的广泛应用,空间数据挖掘成为数据挖掘中最有前景的研究方向之一,而空间co-location模式挖掘是发现一组频繁出现的空间对象的集合,是空间数据挖掘中重要的
板料成形计算机辅助工程(CAE)是一个以基于有限元计算的板料成形数值模拟技术为 核心,融合CAD(计算机辅助设计)、CG(计算机图形学)、CAM(计算机辅助制造)等各类技术于一体的
从2008年至今,云计算一直是个热词。同时另一个概念“云存储”也应运而生。云存储的概念一经提出,就得到了工业界和学术界的广泛关注。什么是云存储,业内很难有一个权威的定
学位
随着多媒体技术、互联网技术的快速发展,以及各种海量数据存储技术的不断涌现,简单的文字信息交流已水能满足人们日常工作、学习和交流的需求。以图像为代表的多媒体信息载体,由
随着我国社会经济的发展,城市建设步伐的加快,人们对交通运输需求的不断增加,城市的交通问题越来越引起大家的关注。如何采取合理的交通控制方法,最大程度地缓解城市主支干道以及
随着城市太口的增多和城市交通的密集化,人们对智能交通提出了越来越高的要求,而车载智能终端作为交通网络的神经末梢,也在日新月异的发展过程中。一方面传统的车载终端,智能
我国高校信息化进程通过长时间的发展,逐渐从系统集成阶段进入到应用集成和信息集成阶段。在高校信息化进程中不断产生了“信息孤岛”难题,“信息孤岛”难题的解决有许多传统方
森林资源调查和监测是研究地表植被覆盖状况乃至全球生态变化的重要内容,而森林区域面积的调查和统计又是森林资源调查和监测的研究重点。利用遥感卫星或航空飞机拍摄的高空间分辨率遥感图像,研究解决森林面积的估测问题,即对高分辨率遥感图像进行分类,进而提取出森林区域的部分,是本文的研究重点和主要内容。当前高分辨率遥感图像的分类主要是以计算机为主要工具的对遥感图像像素进行数值处理,从而达到分类识别地貌特征的目的
近年来,随着分布式数据处理技术和云计算的不断发展,数据中心从简单的服务器托管和维护的场所变成了具备海量数据计算和存储能力的网络集群,为大型信息系统提供海量数据处理和存