基于序列到序列模型的句子简化模型改进研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：hqianhua

【摘要】

：

近年来,句子简化任务已经成为自然语言处理中重点研究的文本生成任务之一,这是因为句子简化不仅可以应用于帮助阅读能力不佳的人群有效地获取信息,还可以帮助提高其它的自然

【作者】

：

张乐民

【出处】

：

华南理工大学

【发表日期】

：

2004年期

【关键词】

：

自然语言处理句子简化文本生成序列到序列模型有序神经元模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,句子简化任务已经成为自然语言处理中重点研究的文本生成任务之一,这是因为句子简化不仅可以应用于帮助阅读能力不佳的人群有效地获取信息,还可以帮助提高其它的自然语言处理任务的性能。比如,机器翻译、文本摘要以及智能对话等。目前主要的句子简化模型研究工作都是基于序列到序列的模型。但是,基于这种模型的研究仍存在以下不足:(1)模型输入缺乏上下文信息。当前,基于序列到序列模型的句子简化模型的输入都是基于相对独立的词向量,没有考虑词语在句子中的上下文关系。(2)模型的编码器结构过于简单,即,基于单一编码阶段的序列到序列模型不能有效提取输入文本的特征表示,也不符合人们在阅读复杂句子时会进行多次阅读的习惯。(3)解码器并不能有效地利用编码器的所有信息。比如,利用注意力机制的解码器仅与编码器的最终输出进行连接。(4)缺乏对句子层级结构信息分析的能力。目前,应用于句子简化的序列到序列模型中,缺乏对句子层级结构信息分析的能力。但是,引入句子的层级结构信息对于句子简化效果有着不可忽略的影响。针对问题(1)-(3),本文在基于现有的序列到序列模型的基础上,提出了基于多阶段编码器的序列到序列模型(记其为MULTI-STAGE模型)。在该模型中,编码器分为N-gram阅读阶段,浏览阶段和最终编码阶段。N-gram阅读阶段对输入句子的词向量矩阵进行卷积操作,得到具有上下文关系的卷积词向量矩阵。浏览阶段在N-gram阶段的基础上,对句子进行“浏览”操作,得到句子的局部编码信息和全局信息。最终编码阶段基于前两个阶段,对输入文本进行最终编码。同时,本文在模型的浏览阶段采用了注意力机制的弱连接方式,使得解码器可以更好地利用多阶段编码器的信息。针对问题(4),本文构建了ON-MULTI-STAGE模型。此模型在MULTI-STAGE模型的基础上,引入了一种有序神经元(Ordered Neurons,ON)的网络结构对模型的浏览阶段进行优化,从而为模型的编码阶段提供语句层级结构信息。实验结果表明,与传统模型以及其他相关的基于序列到序列模型的句子简化模型相比,本文提出的MULTI-STAGE和ON-MULTI-STAGE两个改进模型具有更好的句子简化效果。其中ON-MULTI-STAGE模型更优。它比MULTI-STAGE模型提高了4.24%,比基准模型中最好的序列到序列模型提高了6.46%。

其他文献

基于HEVC的低复杂度多路视频转码技术研究

新一代视频压缩标准HEVC相比其上一代标准H.264/AVC压缩率提高了一倍,但编码复杂度的大幅提高限制了其实用性。在网络视频应用中,同一视频往往需要编码为不同码率的码流来适

学位

HEVC模式判别SAO低复杂度多码率

传媒视角下江西南昌县农村广场舞发展研究

在今天的信息化时代,大众传媒得到了飞速发展,每一种传播媒介的产生都推动了体育事业的发展,体育的快速发展也丰富了传媒的内容。在我国,出台了一系列推动全民健身运动发展的

学位

农村广场舞传媒发展

HEVC和AVS+实时软件视频编码技术研究

随着互联网视频业务的快速发展,网络传输带宽面临越来越大的压力,市场对于压缩效率更高的视频编码标准的需求也愈发迫切。HEVC和AVS+标准分别作为国际和国内新一代视频编码标

学位

视频编解码HEVCAVS+实时编码SIMD

论伽达默尔“第二等级的历史主义”

伽达默尔与相对主义的关系是一个非常重要的问题,而这个问题的核心就在于对其“第二等级的历史主义”的理解。很多学者批评伽达默尔走向了一种相对主义,但是他在“第二等级的历史主义”中却明确指出:历史性并不是真理的阻碍而是真理的条件。其实,后来的学者之所以不能够理解伽达默尔的这种“第二等级的历史主义”,主要是因为没能正确把握到“第一等级的历史主义”与“第二等级的历史主义”的等级差异,因而总是会悄悄地回到“第

学位

第二等级的历史主义第一等级的历史主义历史客观主义纯化过的历史主义历史主义的危机本体论错置历史性

印尼小学汉语教材《育苗华语》的本土化研究

对外汉语教材的本土化是指根据学习者所在地的社会文化、教育体制、学习者特点对教材内容进行调整的过程。印尼曾编写并出版过不少本土化汉语教材,但这些本土教材存在诸多问

学位

印尼汉语教材本土化《育苗华语》《汉语》

基于卷积神经网络的光场显著性检测研究

显著性检测一直以来都是计算机视觉领域的关键问题之一,其在视觉跟踪、图像压缩和目标识别等方面有着非常重要的应用。基于传统RGB图像和RGB-D图像的显著性检测易受复杂背景

学位

显著性检测光场微透镜图像视角变化卷积神经网络双通道融合

基于人眼视觉特性的视频质量评价方法研究

随着数字视频的流行和广泛传播,人们对于数字视频的清晰度、分辨率、流畅性等都提出了更高的要求,视频质量评价成为一个热门的关注点。与许多信号处理应用不同,视频信号的最

学位

视觉注意力掩蔽效应视觉特征支持向量机视频质量评价

一维XXZ模型的纠缠性质与非平衡研究

强关联体系非平衡动力学中的量子纠缠问题是近期比较活跃的一个研究方向。作为量子力学的核心概念之一,量子纠缠是量子力学区别于经典力学的本质特征之一。从其提出以来,就一

学位

量子纠缠纠缠熵纠缠谱洛施密特回波非平衡动力学精确对角化

固体高次谐波的复杂再碰撞动力学分析

高次谐波的出现极大的推动了超快光学乃至整个物理学的研究发展。它不仅为我们提供了通过合成孤立阿秒脉冲去探测更快的电子动力学的手段,也为我们通过谐波谱了解微观世界提

学位

固体高次谐波再碰撞动力学退相位效应电子迁移距离

如何意识到连续统一体？

对连续统一体的意识,就是对时间的意识。对本文的题目做出回答所要解决的核心矛盾是:意识如何在“当下”的意识中不仅要呈现出“当下”还要呈现出上一刻的“过去”,这种“超越的过去性”如何被给予,并且与“当下”相统一?在《内时间意识现象学》中,围绕这一问题,胡塞尔经历了从批判他人到批判自己的转变。推动这一转变的是他对意识活动,特别是回忆,认识上的突破,即,对其双重结构的发现。只有在这种结构的基础之上,才能解

学位

连续统一体胡塞尔斯特恩内时间意识现象学过去性回忆

基于序列到序列模型的句子简化模型改进研究

其他学术论文