论文部分内容阅读
随着互联网技术的快速发展,我们身边无处不充斥着文本信息,人们迫切地需要从海量文本数据中得到有价值的信息,信息抽取技术应运而生。实体关系抽取已经成为信息抽取的重要分支之一,它能够从文本中抽取出实体和属性值及其之间的关系,从而将非结构化文本数据转化为结构化文本数据,因此实体关系抽取技术得到了研究人员的空前关注。当前,实体关系抽取技术主要是与机器学习技术结合共同来完成关系抽取任务,本文将重点研究半监督机器学习进行实体关系抽取的算法。在半监督机器学习算法——Bootstrapping算法中,如何抑制语义漂移是其面对的主要挑战之一。本文针对这个问题,基于一种动态的权重值分配原理优化了传统触发词提取方法。实验结果表明本文提出的方法选择出的触发词使得模式的语义约束能力更强,召回率得到了大幅度地提升;另外在Bootstrapping算法中需要源源不断地将新的关系模式加入到初始种子集中,这就需要定义一种可靠的模式相似性度量方法以选择出可靠的关系模式来扩充种子集,对此本文对最短依存树核函数进行了优化,在传统核函数基础上加入了长度参数和特征权重,实验结果表明利用本文方法得到的准确率随着种子集的扩充而稳步提升;最后,为了让新加入的关系模式更加可靠,本文优化了传统的分类模型,在传统模型的基础上提出一种由多种机器学习算法共同预测的关系抽取模型,使新加入关系模式的置信度提高,实验结果表明该模型可以得到更加稳定有效的预测效果。