中文长文本摘要生成技术研究与应用

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:chinamp3jgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
的提取在自然语言处理领域一直都是比较困难的任务,其目标是要求机器从全文中提取出核心内容,重新组织成更加精炼的一两句话来概括全文。因此,如何有效的提高机器信息过滤的准确度变得尤为重要。虽然目前提出的抽取式和生成式自动摘要提取方法在英文文本和中文短文本方面取得了重大突破,但是由于中文长文本领域的研究内容复杂且没有标准的语料库,尚存在一些需要解决的问题。一方面,就中文本身的一词多义而言往往在语义分析时造成一定难度。另一方面,就抽取式和生成式两种提取摘要的方法而言,通过抽取式方法得到的结果往往不精确,断句严重,生成式获得的摘要则词义杂糅重复率高。因此,针对于目前方法存在的缺陷本文提出了一种新颖的方法意在进一步提升摘要的质量。首先,制约中文长文本摘要发展缓慢的一个重要原因是缺少标准的语料库,本文通过自主编写的爬虫代码对搜狐网站的新闻版块进行了文本内容和标准摘要的收集。通过一系列的数据清理工作后构建了一个质量较高的语料库,该语料库中每条数据集的字数都在500字以上,符合中文长文本长度的要求。其次,在以深度学习为代表的生成式摘要提取方法中,由于长文本的篇幅原因,导致网络在处理文本时很容易产生梯度消失和梯度弥散的问题。虽然抽取式摘要提取方法处理的文本长度不受限制,但是由于抽取式提取摘要方法在处理文本时不能同时考虑词语层面的语法和语义,导致生成的结果句子的连贯性和一致性都比较差。因此,本文提出了一种结合抽取式和生成式摘要提取方法的新算法,在该算法中首先利用无监督抽取式方法粗粒度的提取长文本中的数条重要句子组成短文本,然后利用生成式对短文本内容进行信息组合和包装生成新的符合人类说话逻辑的精简摘要。抽取式方法提取生成短文本的算法是一种混合了Word2Vec、Text Rank和TFIDF的改进版算法,该算法不但考虑了词语之间存在的语义空间信息,而且采用两种不同的算法计算每个句子在文章中所占的权重,进一步提高了目标句子最终出现在结果中的可能性。的算法是基于传统的循环神经网络编码-解码结构改进的,在本文提出的算法中充分考虑了网络在进行空间编码和空间解码时词语之间存在的时空特性。为了解决生成式提取摘要往往产生的指代不清和模型无法收敛等问题,本文提出了在网络中添加注意力、指针和覆盖机制并在测试集上取得了良好的效果。
其他文献
随着材料科学的不断发展,材料文献中包含的海量信息成为研究人员关注的焦点,如何获取大量有效的材料数据是现阶段的新挑战。本文采用自然语言处理(Natural Language Processing,NLP)技术从铝硅合金材料文献中获取数据。NLP能够使计算机理解并很好地处理文本信息,NLP技术可以从非结构化文本中获取到有用的信息,并进一步转化为结构化的文本信息。命名实体识别(Named Entity
学位
<正>作品说明:主打以谢里丹风格(Sheridan style)融合日式简约风格。配饰定位是装饰和实用相结合,色彩朴实,材质选用耐用的小牛皮、植鞣革等,配饰面上的视觉中心设计强调图案结构繁琐、线条密集流畅。系列配饰均采用实用性较强的手提包、手拿包、钱夹、笔记本等基础款式,整个系列的作品均是全手工制作完成,工艺流程复杂,制作要求较高,成品经久耐用,给人以有温度的制作感和匠心精神。
期刊
奇异位形对机械臂的运动和轨迹规划有着限制作用,它是评价机构性能好坏的一个重要指标,无论是在机械臂运动学方面,如作业中的控制问题,精度问题;还是在动力学方面,如机械臂的受力状态,应力分析等,都和奇异位形有重要的关联,因此,对串联机器人机械臂奇异位形的识别与避免研究有着重要意义。本文将针对某六自由度串联机械臂,对奇异位形的识别及避免轨迹规划进行深入研究,主要研究内容如下:首先,以某六自由度串联机械臂的
学位
热弥散效应广泛存在于填充床反应器、地下含水层和多孔保温材料等多孔介质传热传质过程中,热弥散效应的强弱变化会影响多孔介质传热传质过程,研究热弥散效应与多孔介质微观结构参数的关系对多孔材料的设计制造具有重要的实际意义。在多孔介质对流传质研究领域,由于多孔介质空间结构的复杂性,很难全面详细地解释流体在多孔介质中的流动规律。多孔介质在一定特征尺度内具有分形特征,因此本文利用分形理论描述了多孔介质中的孔喉结
学位
本文研究的主要内容为等截面与变截面构件的非线性计算,非线性分为几何非线性(二阶效应)和材料非线性(材料的弹塑性)。其中二阶效应主要针对变截面构件,材料弹塑性针对等截面和组合截面构件。对于跨度较长的变截面构件,二阶效应显著,不能忽略。解析法计算变截面构件的二阶效应较为困难,除个别简单的边界条件外,几乎得不到闭合解。为了能更简便求解变截面构件的二阶效应,可用有限元法推导出考虑二阶效应的变截面单元刚度矩
学位
借鉴国内外相近学科的教学经验,将知识传授和价值引领有机结合,对服装与服饰设计专业服装展示设计课程进行思政化改造,构建了“1234”课程思政教学模式。实践证明,该模式提高了学生学习服装展示设计课程的兴趣,更好地发挥了课程思政的以德育人、以美化人功能,为本专业课程群课程思政的实施提供了思路启发和实践示范。
期刊
脑卒中是目前临床致残率与致死率极高的心脑血管疾病之一。临床调查显示,由血管阻塞引起的急性缺血性脑卒中(acute ischemic stroke,AIS)占脑卒中发病总数的70-80%。然而,目前针对缺血性脑卒中的诊疗策略总体上存在诊断准确性差、干预时间滞后等缺点,因此,如何应对脑卒中的突发性,并在狭窄的诊疗时间窗(4.5 h)内进行快速精确诊断与及时干预仍是临床治疗中急需解决的问题。本论文受血小
学位
近年来,我国的汽车保有量快速增加,需要报废拆解的车辆数量也相应地逐年增加。汽车轻量化的发展使得聚合物占整车重量的比例越来越高,所以报废汽车聚合物的回收、拆解及材料再利用不仅能节约资源,减少环境污染,此外还可以促进聚合物回收产业的发展,从环境和经济两方面考虑都具有长远的发展意义。高压静电分选作为一种新型的分选技术,由于其具有较宽的粒径处理范围、设备操作简单、能耗低、不涉及水污染及二次处理等优点,因此
学位
在人类科技发展浪潮中,以人工智能、大数据、5G等为代表的新技术在经济增长、文化赋能等多方面呈现出了巨大的发展潜力,并成为了全球各国、各组织的关注重点。我国《新一代人工智能发展规划》的发布将人工智能的发展提高到国家战略高度,中国的科技创新将随着智能技术与智能化融合的广泛应用而呈现出结构性突破。而出版文化领域也将随此发展机遇,在机械化、信息化、数字化进程中迈进智能化发展新阶段,人工智能与出版融合发展的
学位
期刊