论文部分内容阅读
常识获取是人工智能领域的一个核心难题,其目标是构建面向应用的大规模常识知识库,以实现真正的智能系统。为了突破知识获取“瓶颈”,常识获取的方式经历了由人工编辑到自动获取的转变,其面向的知识源也过渡到文本这一知识载体。而Web语料以其大规模性、易获得性和领域无关性等特点,为海量常识的获取提供了新的契机。
因果关系作为一种重要的常识知识,是大规模知识库构建中不可或缺的一部分。基于因果知识的推理在自动问答、信息检索等领域具有重要的应用价值。因果知识关注事件之间的关系,其获取难度较大。因此,目前的研究大多面向有限的封闭语料,在大规模因果知识的获取、验证、表示等方面尚缺乏系统的分析和研究。
针对上述问题,本文系统地研究了从Web语料中获取因果知识的理论和方法,具体研究内容包括以下方面:
(1)研究基于Web查询模式的因果关系抽取方法。
面向Web的因果关系抽取分为因果关系的识别和提取两个阶段。在关系识别阶段,使用包含因果提示词的Web查询模式,从Web语料中识别描述因果关系的文本片段。在关系提取阶段,提出基于贝叶斯学习的边界识别方法,用于划分因果事件的边界,实现事件序对的提取;同时,针对关系提取中存在的数据缺失问题,提出基于决策树学习的缺失主体识别方法,通过构造多元分类器识别并填充事件主体,提高了因果关系提取的准确率和召回率。实验表明,本文给出的Web查询模式的命中率和查全率较高,满足大规模因果知识获取对“数量”和“效率”的要求。
(2)研究基于依存句法分析的事件抽取方法。
针对因果事件的表示粒度问题,定义了一种事件五元组表示模型,并提出了基于依存句法分析的事件抽取方法。该方法利用事件表达式的依存句法结构与事件元组结构之间的映射关系,使用以依存关系路径为主要特征,以词性、词类等为辅助特征的事元抽取规则,从事件依存树中抽取相应的事元。同时,针对事件抽取任务中的级联错误,采用基于事元语义相似度的层次聚类方法,分析事件的语义约束,进一步提高了事件抽取的准确率。
(3)研究因果知识的评估方法。
为了保证因果知识获取的精度,从“正确性”和“因果性”两方面对已获取的知识进行评价。一方面,针对知识描述是否“正确”的问题,提出了基于最大熵模型的系统可信度估计方法。该模型利用了知识获取系统各个模块的相关特征,通过设定可信度阈值,有效地提升了系统的输出精度。另一方面,针对知识是否表达“因果关系”的问题,提出了融合事件共现特征和结构特征的统计模型,对知识进行评分并排序。
(4)研究基于类比学习的因果关系扩充方法。
对于给定的目标事件,因果关系的类比学习过程包括类比事件的选择和相关事件的映射,其关键问题是事件相似度的度量。本文从“语义”和“共享原理”两个角度度量事件的相似性,以实现因果关系的累积类比。为了选择合适的扩充对象,设定扩充的终止条件,将已获取的因果关系组织成图的形式。分析因果关系图的特殊性质,并对图中的事件和关系进行整体度量。基于种子因果关系进行知识扩充,降低了单一获取的复杂度和难度。