论文部分内容阅读
在当今互联网高速发展的时代,如何快速、准确地理解网络上的海量异构数据,是研究者们关注的热点问题之一。关系抽取被定义为信息抽取的一个重要子任务,是从非结构化的自然语言文本中提取结构化信息必不可少的过程。根据训练数据的来源,可以将关系抽取分为以下几类:全监督关系抽取、无监督关系抽取、弱监督和半监督关系抽取。然而面对海量异构数据的挑战,这些方法都存在一定的局限性。近年来研究者们提出的远监督关系抽取是一种适合大数据下关系抽取任务的方法。它通过对齐知识库中的关系实例和文本集中的语句,为分类器提供大规模的训练数据。远监督关系抽取基于以下假设条件:如果文本集中某条语句中包含了知识库中某个实体对,那么就认为这条语句潜在的表达了该实体对在知识库中对应的关系标签。显然,该假设条件过于理想化,导致远监督关系抽取存在噪声数据的问题。例如某个句子虽包含知识库中某个关系对应的实体对,但该句子并未表达这个关系。本文使用低秩矩阵填充技术进行远监督关系抽取,并进一步将最小化矩阵核范数的问题转化为最小化截断核范数的问题,提出了使用基于截断核范数的矩阵填充技术进行远监督关系抽取的方法。将远监督关系抽取问题转化为矩阵填充问题,在填充矩阵的同时恢复潜在的低秩矩阵,降低噪声数据的影响。矩阵核范数的大小等于矩阵奇异值的和,然而对最小化矩阵的秩有直接关系的是奇异值的个数,奇异值的个数等于矩阵的秩。矩阵经奇异值分解操作得到的奇异值序列从大到小排列,呈快速衰减的趋势。核范数的大小与矩阵的秩无法完全等价,在最小化矩阵的秩的操作中,核范数的减小不一定代表矩阵的秩减小,因此远监督关系抽取的准确率将受到影响。截断核范数是指从核范数中去掉最大的那部分奇异值后的剩余部分,最小化截断核范数是指对截断后剩余奇异值的和进行最小化求解。基于截断核范数的矩阵填充方法具有低秩矩阵填充方法进行远监督关系抽取准确率高、容噪性好的特点,同时基于截断核范数的矩阵填充方法比基于核范数的矩阵填充方法能够更好的保留矩阵的有效成分,并且截断核范数对于矩阵的秩函数有更好的逼近效果。本文通过寻找奇异值的最后显著跳跃点来选择恰当的截断位置,并且利用TNNR-ADMM和TNNR-APGL两种算法求解最小化截断核范数的凸优化子问题。对比实验表明:本文方法的抽取效果优于之前提出的使用基于核范数的方法,本文使用NYT’13数据进行远监督关系抽取,准确率与基于核范数的方法相比有所提高。