基于深度学习的学术文献自动摘要方法研究

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:dfvg43g3544
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,网络学术资源开始呈现出爆炸式的增长,这使得科研工作者被淹没在越来越浩瀚的文献海洋当中。因此,如何自动地概括一个学科领域的文献集合以生成一份简洁、全面的综述报告,已经成为了目前知识管理研究与实践的热点问题之一。自动摘要作为自然语言处理中的一项重要技术,其通过对文档信息进行汇总和压缩,从而以一种浓缩且贴近用户需求的方式将最为关键的信息予以呈现,旨在帮助科研人员达到“站在巨人肩膀上”的目的。本文围绕如何提高面向学术文献的自动摘要方法展开了深入研究,结合了有关深度学习的一系列理论与方法,例如基于神经网络的文本表示方法、基于Seq2Seq模型的自动摘要方法,以及关于文本挖掘的经典算法,例如统计主题模型LDA 与 Labeled-LDA、链路分析方法 PageRank 与 PageRank with Priors,进而构建了一个“基于深度学习的学术文献自动摘要方法研究”体系,并且选用了美国计算机协会数字图书馆中的一部分(与计算机科学相关)文献进行数值实验验证。本文的主要研究内容包括:1.将“文献综述生成”任务定义为一个序列文本生成问题,进而提出了一种基于层次神经网络的Seq2Seq模型。具体地,该模型的核心组件包括一个层次文档编码器和一个基于注意力的解码器,其中层次编码器分别通过CNN层和RNN层实现句子级与文档级的语义表示,不仅能够正确地反映文档结构的层次性,还可以避免过长的单词序列所引发的梯度弥散和信息损失;而在解码过程中,注意力机制将各个候选句的显著性和新颖性同时纳入考虑,以保证所生成文摘在最大化代表性的时候尽量最小化其冗余性。2.基于“文献综述”是上下文感知的这一特点,提出了一种融合上下文信息的Seq2Seq模型。具体地,该模型首先利用Labeled-LDA算法推断每个候选句的主题分布,然后在文档编码过程中结合句子的主题信息,最后将源文本同时进行编码以添加到解码过程中,从而能够计算各个候选句与目标文献之间的上下文相关性。3.根据静态地分析上下文相关性无法满足文本语料是动态变化的这一事实,从信息网络的角度探索了图形上下文对于“文献综述生成”任务的重要程度,进而提出了一种联合上下文驱动的Seq2Seq模型。具体地,该模型首先利用Node2Vec算法矢量化异构学术网络中的每个节点,然后计算任意两篇论文在图形上下文中的连通距离,最后在解码过程中同时引入来自纯文本以及异构学术网络中的两种不同上下文相关性。
其他文献
针对从大数据评论语料库中检索出与新闻主题相关且含有情感倾向性的中文评论的研究较少的问题,研究在不同新闻粒度下的特征检索方法,从中文评论语料库中检索生成评论。采用主
过程管理为高校图书馆构建读者需求型阅读推广服务模式提供了参考。文章通过调查大学生在阅读过程中的实际需求,分析了过程管理服务模式的可行性,提出了高校图书馆基于过程管
主题图书馆是近年来公共图书馆改革创新的新方向,经济发达地区主题图书馆的建设正在稳步推进,对应的阅读推广活动也在同步开展。主题图书馆在空间和功能上有了新的变革,对应
在目前阶段,随着家用电器以及大功率设备的不断增多,对电能的需求也变得越来越大。而继电保护作为是电力生产中非常重要的一个环节,它不但能够有效确保电力系统正常有序的运
人类科学,很大程度上说其实是仿生设计学,它作为人类社会生产活动与自然界的锲合点,使人类社会与自然达到了高度的统一,正逐渐成为设计发展过程中新的壳点。从飞机到潜艇,这些都是
深度学习技术是机器学习领域研究的热点和难点内容,通过将这项技术应用到数字图书馆建设,能够进一步提高其智能化服务水平。文章结合实际工作经验分析了深度学习技术的概念和
在火力发电厂变倾角等厚滚轴筛的运行过程中,存在筛轴之间卡煤导致设备跳停的安全隐患。为了提高设备的可靠性,保障检修人员的人身安全,本文结合实际运行情况,分析了滚轴筛筛
文章分析了信息时代对高校图书馆资源建设与服务的影响,剖析了高校图书馆资源建设和利用存在的问题,探索了信息时代高校图书馆资源建设和服务利用的路径,以期为用户提供更加