基于LSTM的比较句识别及关系抽取研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:lj780427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,互联网上出现了大量的UGC(User Generated Content)数据,比如博客、论坛等。如何从海量信息中快速筛选出有价值的内容成为计算机领域关注的问题。比较句识别及关系抽取正是其中的一个问题,其主要目标是识别出文本中的比较句并将其中的比较关系抽取出来。目前主流方法多是基于比较模板及特征工程,这类方法过于依赖自然语言处理工具,并且不能充分利用文本的深层语义信息。为了克服这些困难,本文提出一种基于长短期记忆网络的算法来完成比较句识别及关系抽取任务。本文的工作主要包括以下几部分:(1)利用网络爬虫对京东网站手机版块下的小米、华为、荣耀、iPhone共4个品牌的评论数据进行采集,经过去除非观点句、分句、分词等数据预处理后,构建用于实验的语料库;(2)针对比较句识别任务的特点,提出了一种基于长短期记忆网络(Long Short-Term Memory,LSTM)和注意力机制(Attention Model,AM)的模型。该模型能够保证输入序列对输出序列注意力概率的分布,并学习到句子的深层语义特征。实验结果表明本文提出的方法是有效可行的;(3)针对比较关系抽取任务的特点,提出了一种基于双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)和本体库的模型。该算法首先利用BiLSTM抽取句子中的比较主体、比较客体、比较属性,再利用本体库进行比较观点挖掘,最终得到比较关系。实验结果表明本文提出的方法有效。
其他文献
在社会飞速发展、汽车等交通工具大范围普及的时代背景下,城市交通路网变得日益复杂化、多元化,因此对城市交通的承载能力也有了进一步的需求。人们在出行的同时逐渐更为关注
由于热红外遥感技术应用越来越广,许多国家都发射了搭载热红外传感器的卫星,同时匹配卫星载荷的热红外通道的在轨场地辐射定标技术也需要提升。目前星载遥感器的场地辐射定标
轴承作为现代机械设备的“关节”,在国民经济建设中有着举足轻重的地位。轴承滚动体是轴承中最核心的零部件,其制造质量直接决定轴承运行性能。而钢球作为最常用的一种轴承滚
近年来,朝鲜与中国贸易发展保持快速发展的势头,中朝关系也由之前的高度重视战略安全转向重视两国的经济贸易发展。这些都说明朝鲜越来越重视本国的经济发展,逐渐尝试开发开
在钢筋混凝土板柱结构中,边节点和角节点由于不对称,其受力性能和破坏特征较为复杂,对其进行抗冲切性能的的研究方法较少。为了针对板柱节点建立有效且合理的试验研究和数值
渤海湾跨海隧道工程的最初构想可追溯于上世纪90年代初期,自提出后一直是桥隧工程界探讨的热点。随着我国综合实力和工程技术水平的快速发展以及项目风险管理能力的显著提高,
工业信息物理系统(Industrial-Cyber-Physical-Systems,ICPS)是工业无线传感器网络(Industrial Wireless Sensor Networks,IWSN)与传统工业控制系统(Industrial Control Syst
经过漫长的自然选择,四足哺乳动物逐渐进化出能适应复杂环境的肢体。而人类制造的普通履带式、轮式汽车或者机器人却很难在复杂的地形下行驶。根据仿生学原理制造的仿生四足
计算机断层成像(Computed Tomography,CT)是利用X射线穿透被检测物体获得投影数据,然后对投影数据进行一系列变换得到断层图像的技术。CT技术经过了几十年发展已经成熟,广泛
近年来,随着通信、计算机和控制技术的飞速发展,网络化控制系统已经成为控制理论研究的热点方向。虽然已经取得了诸多丰硕的成果,但仍有很多难题还未克服。例如,控制系统通过