基于深度学习的中文关系抽取方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lxn80516282
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取是指检测和识别文本语句中实体之间的语义关系。关系抽取作为自然语言处理的关键一环,对自然语言处理的许多应用如自动问答、知识图谱等具有重要的意义。近几年,深度学习模型已经成为关系抽取的最先进方法,然而关于中文关系抽取的研究工作却很少。本文针对中文关系抽取面临的字词之间无明显的分割标志,分词误差会被引入关系抽取系统中;以及缺乏公开的标记中文语料等问题。首先基于远程监督思想,从复旦知识工厂、百度百科中提取关系三元组,通过与开放的中文语料搜狐新闻数据集中的文本进行对齐,构建了一个中文人物关系数据集。然后提出了一个用于远程监督中文关系抽取的多示例多标签双向长短时记忆神经网络(BLSTM)模型。以字向量和位置向量作为输入,避免了引入中文分词错误;注意机制用于提取更丰富的汉字和句子特征;在神经网络分类器中使用多个二分类函数做多标签分类来处理重叠关系。为了提高关系抽取模型的性能,又提出了一个改进的基于注意力池化BGRU的关系抽取模型,该模型将LSTM替换为神经元结构更简单的GRU,在字级注意力层后添加了分段最大池化层,结合了RNN可以捕获全局信息和分段最大池化可以提取结构信息的特点,而分类器则采用常用的softmax分类函数。在构建的中文数据集上的进行实验表明,本文所提的两个神经网络模型都适用于中文关系抽取且具有较高的性能。此外,还在一个英语基准数据集上进行了实验,结果表明本文所提的方法优于现有的一些方法。
其他文献
如果不遵循金融市场发展的基本规律,彻底放开银行业准入,就难有民间中小银行的发展壮大,国有银行这些被“惯坏的孩子”虽可长大,但难以成人    如果说,中国金融业的改革滞后于其他领域的改革,那么,金融业中的银行业的改革更显滞后。其财务报表上光鲜亮丽的利润业绩不仅不值得骄傲,而且难掩其巨额经营风险的重重隐忧。  虽然集政府信用、国家信用甚至主权信用于一身,并附带限制其他行业资本和民营资本进入的屏障保护等
随着现代化城区的迅速扩展,市民日益增长的高质量环境需求,以及建设国际化大都市的时代诉求,都对城市管理的变革提出了客观要求。在全面学习借鉴东城区“网格模式”先进经验的基础上,朝阳区以建设部在全国推广数字化城市管理模式为契机,结合区域特点,积极推动城市管理方式的变革,探索建立了“朝阳区全模式社会服务管理系统”,并在理论、机制、技术和管理实践四个方面进行了创新,取得了良好成效。  作为国家建设部确定的首
从世界能源转型的历史进程和视野论述了燃煤热电联产发展为天然气冷热电联供的必然性;剖析了能源生产和供应的集中与分散的关系.论述了相对于集中的千MW级煤、水、核电主力基
构建和谐社会是中国特色社会主义发展的必然要求,坚持构建和谐社会符合人类发展的历史规律和马克思主义的唯物史观。在此过程中我们要坚持以人为本和全面自由发展的辨证统一,并
华能巢湖电厂1#炉空气预热器投运以来漏风率较高,影响了机组的安全、经济运行.分析了回转式空气预热器的漏风原因,通过对转子热变形量以及空预器漏风量的计算,明确了影响漏风
无线电能传输是一种借助于软介质实现能量以无线形式传递的新兴技术,其中基于电磁耦合的无线电能技术在十年来成为研究者的研究的热点,已在电动汽车、数码家电、工业吊装、石
工业智能化已经迅速入驻,为适应未来岗位需要,石油专业人才培养需要得到调整和改进。该文介绍了石油行业智能化发展情况,分析了高职石油专业人才培养过程中培养目标片面化、
骷髅,即死人之全身骨骼或头骨。它是亡者身体最后的遗留物,是死亡的直接见证。追溯漫长的人类历史,考古发现世界上多处文明均有猎首习俗遗迹,中国亦不例外。断头葬、岩画和地
英语听力理解需要听者不仅要具备英语语言基础知识,而且还要熟谙相关的西方社会文化知识。学生如果不了解西方的风俗习惯、历史、宗教礼俗、人们的思维方式等文化背景知识,那