基于深度学习的属性抽取技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yuexianglian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何将大量的非结构化信息转换为人们易于理解的结构化信息,提取语义信息,已成为近年来研究的热点。实体的属性抽取方法,是将非结构化数据转换为结构化数据的一种重要手段,是自然语言处理任务的一个重要子任务。虽然,已经有不少的方法提出用来完成属性抽取任务,但是这些方法中仍然存在一些问题需要解决。本文针对这些方法中存在的问题进行深入研究,提出了一种基于长短期记忆网络的多实例多标签的算法,主要按照以下顺序展开工作:首先展示了属性抽取较为流行的几种方法,主要有基于规则的方法、有监督的和无监督的机器学习方法。这些方法存在对人工和其他自然语言处理工具依赖性过大,无法应用到目标关系,性能还有待提升等问题。针对上述问题,本文提出的方法使用远程监督的方式生成模型训练和测试所需要的样本,减少对人工的依赖。使用多实例多标签模型解决远程监督生成样本中的多实例多标签现象。多实例多标签模型利用带有隐变量的图模型建模一个实体对有多个实例,以及不同实例可能对应不同标签因而存在多个标签的问题。同时,使用深度学习的方法自动学习大量样本数据的内部规律。利用词向量作为模型需要的特征,能够表达词与词之间的相似性,减少对其它自然语言处理工具的依赖,防止错误的传播和累加。使用长短期记忆网络训练模型,充分利用了句子的时序信息,通过句子前后的上下文关系,学习了句子中存在的语法关系和语义关系。长短期记忆网络能够选择性的丢弃一些无用信息,而保留重要的有用信息,对于学习较长句子中的内在关系非常有效。此外,本文还利用了实体的类型信息,用来区分不同实体对的不同关系。本文用属性抽取较为常用的数据集,与目前比较流行的几个属性抽取模型进行对比实验。实验结果表明,与其它对比模型相比,本文提出的方法在几个重要评价指标上的表现更优。证明它在性能上有一定的提升,验证了它的有效性。最后,本文将属性算法应用到了 973跨媒体计算示范应用平台,构建了一个关于疾病的知识图谱。通过实践,验证了本文方法的实用性。
其他文献
习近平总书记在党的十九大报告中指出,必须毫不动摇坚持和完善党的领导,毫不动摇把党建设的更加坚强有力。中国特色社会主义进入新时代,我们党一定要有新气象新作为。律师队伍作
报纸
又是一年收获时。第23届中国新闻奖于11月7日在北京颁奖,所有奖项各归其主。对获奖者来说,过关斩将,脱颖而出,应该说是实至名归。什么样的作品能获奖,有哪些因素,该朝什么方
随着素质教育的不断改革,人们对小学体育教学和德育教育给予了高度的重视,在小学体育教学过程中,很多内容都涉及到一定的德育知识,因此教师要充分利用这些知识,在体育教学内
<正>住建部日前发布《关于加强生态修复城市修补工作的指导意见(征求意见稿)》(以下简称《意见》)。《意见》提出,2017年各城市制定"城市双修"实施计划,推进一批示范项目;202
<正>10月29日,土耳其总统埃尔多安在庆祝建国94周年集会上发表讲话,强调了土耳其国父凯末尔的精神之于现代土耳其的重要意义,并表示这种精神至今仍存,是维系土团结与发展的基
从2017年起,就世界当前的经济发展趋势来看,全球经济依然会延续"三低、三失衡、三分化"的发展特征,但也不断涌现出了一些新的发展特征和趋势,着重表现为旧动能、旧观念的弱化
<正>小儿过敏性鼻炎多以阳郁或阳损为主,治疗应以辛温散寒或温里散寒为主,重在扶阳而非补阳,雷火灸是对普通艾灸的发展和提高,是温阳疗法的合理补充,可作为治疗或辅助治疗小
从国际社会对非物质文化遗产保护工作性质及其理论基础的认识出发,我们认为,权利原则和发展原则是非物质文化遗产保护的基本原则。所谓权利原则指的是非物质文化遗产保护必须
随着棋类游戏在幼儿园的深入开展,它的教育价值已经得到了幼教同行的广泛认可。如何有效地开展棋类游戏,成为备受关注的一个话题。就棋类游戏如何开展提出了自己的观点,即多
目前我国城市旧城区的更新主要是依托土地市场这一基础平台而展开的,土地批租成为旧城更新的重要方式。本文借鉴土地管理、城市规划以及社会学等学科的理论观点,试图对武汉市