基于网络数据的中文公司实体关系抽取研究

来源 :北京交通大学 | 被引量 : 8次 | 上传用户:aajilin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
公司实体关系抽取作为实体关系抽取的研究分支,是信息抽取任务的重要组成部分,在开放性数据中抽取公司关系在了解和分析行业、做出管理决定选择商业伙伴等方面均具有重大意义,传统的实体关系抽取方法存在分类颗粒粗、不够细致等问题,而中文公司实体关系抽取中存在着语法复杂、组成灵活等问题,直接将传统的方法应用到此领域效果较差。因此,本文主要研究中文公司实体识别以及中文公司实体关系抽取。本文研究的内容包含两个部分:第一,研究中文公司实体识别的方法。中文公司名称和简称的识别是自然语言处理(NLP)中实体识别的一个重要的挑战性的任务。传统的公司名称识别的方法存在未登录的公司名称难识别以及简称识别存在实效性差和训练语料库构建困难等问题,基于这些问题本文提出了一种基于规则和词典匹配以及统计的机器学习方法融合的算法(SF-UNION),以公司名称作为标准语料库,有机结合提高了中文公司名称与简称识别的性能,在开放测试中,该方法的公司名称与简称识别的召回率、准确率、F1值分别取得较好的效果。第二,研究中文公司实体关系抽取的方法。中文公司实体关系抽取中存在着诸多问题,传统的方法应用性较差。为了解决以上问题,本文提出了一种基于依存句法分析(Dependency Parsing,DP)的注意力机制(Attention mechanism,ATT)与长短期记忆网络(Long Short-Term Memory,LSTM)网络融合的算法(DP_ATT_LSTM),对输入文本句子进行依存句法分析操作,根据公司实体关系的特点获取到由依存弧进行判断的谓语动词序列,输入到一个LSTM网络中,同时将单句输入到另外一个LSTM的输入层,相应的谓语动词信息是作为先验知识并入,以自适应地计算注意力用于生成句子表示的权重,然后将计算得到的特征向量输入到分类器中,进行实体关系的分类。实验证明,本文的算法得到较好的效果,准确率、召回率和F1值分别取得较好成绩。
其他文献
根据大型矿用自卸车燃油系统特点,详细介绍了燃油系统各组成部分设计要点。
不知从何时起,市场上又多了一种食品——“儿童食品”。于是,很多家长在给孩子买食品时,青睐冠以“儿童食品”字样的产品,认为它们更符合孩子的身体发育情况。当然,这类产品的价格
报纸
税务文化是税务部门在长期的历史发展过程中,由千千万万的税务人不断凝聚、沉淀出的精神价值和形成的共同生活方式,最终也将体现税务人的集体人格。税务文化对于税收工作的开展和税务人员自身都有重要的影响意义。实践证明,良好的税务文化对于深化税制改革、促进税收事业健康发展、提升税务干部队伍综合素质等具有显著的促进作用。自1994年国地税分设至2018年国地税合并,这24年间原国税和原地税在各自的实践发展中逐渐
随着我国现代管理体系的建立与逐渐完善,人力资源成为管理现代化的支柱性资源。然而人才选拔是在人力资源管理过程中至关重要的一环,组织的发展与进步都需要源源不断的人才补
城市和农村是两个具有不同内涵而又相互联系的区域,两者相互依存又相互影响,城市为农村发展提供了经济和社会保障,农村又是城市发展的坚实基础。自改革开放以来,我国经济得到了迅速的腾飞,重庆市城乡面貌日新月异,然而在城市偏向的发展路径下,城市建设步伐远远快于农村地区,城乡差距越来越成为进一步发展的阻碍,三农问题日益受到重视,而城乡发展一体化是解决“三农”问题的根本途径。要加大统筹城乡发展力度,增强农村发展