论文部分内容阅读
公司实体关系抽取作为实体关系抽取的研究分支,是信息抽取任务的重要组成部分,在开放性数据中抽取公司关系在了解和分析行业、做出管理决定选择商业伙伴等方面均具有重大意义,传统的实体关系抽取方法存在分类颗粒粗、不够细致等问题,而中文公司实体关系抽取中存在着语法复杂、组成灵活等问题,直接将传统的方法应用到此领域效果较差。因此,本文主要研究中文公司实体识别以及中文公司实体关系抽取。本文研究的内容包含两个部分:第一,研究中文公司实体识别的方法。中文公司名称和简称的识别是自然语言处理(NLP)中实体识别的一个重要的挑战性的任务。传统的公司名称识别的方法存在未登录的公司名称难识别以及简称识别存在实效性差和训练语料库构建困难等问题,基于这些问题本文提出了一种基于规则和词典匹配以及统计的机器学习方法融合的算法(SF-UNION),以公司名称作为标准语料库,有机结合提高了中文公司名称与简称识别的性能,在开放测试中,该方法的公司名称与简称识别的召回率、准确率、F1值分别取得较好的效果。第二,研究中文公司实体关系抽取的方法。中文公司实体关系抽取中存在着诸多问题,传统的方法应用性较差。为了解决以上问题,本文提出了一种基于依存句法分析(Dependency Parsing,DP)的注意力机制(Attention mechanism,ATT)与长短期记忆网络(Long Short-Term Memory,LSTM)网络融合的算法(DP_ATT_LSTM),对输入文本句子进行依存句法分析操作,根据公司实体关系的特点获取到由依存弧进行判断的谓语动词序列,输入到一个LSTM网络中,同时将单句输入到另外一个LSTM的输入层,相应的谓语动词信息是作为先验知识并入,以自适应地计算注意力用于生成句子表示的权重,然后将计算得到的特征向量输入到分类器中,进行实体关系的分类。实验证明,本文的算法得到较好的效果,准确率、召回率和F1值分别取得较好成绩。