基于关键词和语法树的文本风格迁移模型

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:ltt3221340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本风格迁移是自然语言处理领域中一个前沿的细分领域,具有重要的研究和工业应用价值。本文在前人研究的基础上,通过对比发现以往模型的不足,进而找到本文的研究目标,即针对现有模型无法实现文本内容和风格保留的平衡的问题,以及现有模型往往只能针对一种语料库,无法对平行语料和非平行语料均做针对性优化的问题,展开了研究探索,本文提出了一种基于关键词和语法树的文本风格迁移模型,不仅解决了现有模型的上述两个问题,而且尝试将其应用在相关的自然语言处理的聊天机器人任务中,从而实现了理论到工业落地的探索。本文受自然语言领域研究的启发,提出了一种基于关键词和语法树的文本风格迁移模型,从词语和语序的角度出发,将模型的整体框架设计为两阶段的处理任务,即先找到目标文本的可能表达的关键词词语列表,其次将这些词语列表通过融合语法树进行排序,输出既保留语意又符合语法的目标文本,并在平行语料和非平行语料两类数据中设计并进行了实验,此外,本文借鉴文本翻译的成熟评价指标,对模型进行了实验验证,证实了模型的有效性。本文的核心贡献主要有以下几个方面:(1).本文实现了一种基于关键词和语法树的模型,不仅能很好的保留原文语意,又能实现可控的进行文本的风格的转换,且生成的文本具有较好的可读性,解决了过往模型无法实现文本内容和风格保留的平衡的问题。(2).本文提出了一套预测排序框架。不仅能实现对有监督学习任务和无监督学习任务的处理。通过替换预测词语器模块,可以针对性的对有监督任务和无监督任务进行优化,解决了现有模型往往只针对一类语料的问题。(3).本文基于上述模型开发了一个可以定制机器人语言风格的聊天机器人APP。通过指定机器人聊天风格,可以实现聊天机器人回复用户时有统一的语言风格。解决了聊天机器人任务,由于训练语料的多样性和不确定性导致的聊天回复文本风格不统一的问题。
其他文献
随着人口老龄化的加剧,我国肿瘤的新发数和死亡数持续上升,导致多数人认为患上肿瘤就等同于死亡。而事实上,如果人们能提前了解肿瘤的相关知识,并积极采取行动,那将有近半数的肿瘤病例是可以避免的。在肿瘤知识信息化的今天,人们虽然可以很轻易的通过搜索来获取所需,但这其中包含着大量不准确的信息,严重影响了人们的判断。于是,肿瘤知识推荐系统应运而生。它可以向公众科普肿瘤预防的方法,改善肿瘤患者的生存质量,同时帮
学位
Transformer是一个基于多头注意力机制的深度学习架构,在自然语言处理领域具有里程碑式意义,在业界很多大规模模型上得到了广泛的应用。近年来,Transformer也成为计算机视觉领域的重要研究方向。Transformer架构引入了并行化,利用并行训练,可大大减少训练时间,提高计算效率。2021年,新一代国产申威众核处理器SW26010Pro正式推出,其配套的软件环境中已完成了对Py Torc
学位
在许多研究领域,对多个数据集的联合分析变得越来越重要。当在几个独立的实验中研究其相同的特征时,一种常见的综合方法是联合分析多个测试结果的多个序列。本文研究了基于隐马尔可夫模型的信号三分类问题,并在大规模基因组学领域针对各种病毒做了一系列应用。引入了正负两方向的错误分类率(FDR),并开发了基于参数的Oracle算法和基于数据的Data-driven算法来控制每一种错误分类率,同时实现最大的预期正确
学位
随着国内网上零售高速发展,消费者的行为习惯也发生了天翻地覆的变化,各类营销模型争奇斗艳,其中将互联网与线下商务渠道有机结合的O2O商业模式发展最为迅猛。目前针对O2O商业模式的技术支持和落地实战的研究较为丰富,而对O2O优惠券如何提高核销率的核销因素研究相对稀缺。分析O2O优惠券核销因素,不仅能够帮助商家制定更高效的促销策略,也能帮助消费者屏蔽各类促销优惠活动的干扰,准确的判断优惠券的实际优惠价值
学位
光学三维检测技术有着广泛需求,面结构光检测技术被大量应用在视觉检测、质量检测、逆向工程、三维重构和SMT(表面贴装技术)贴片等诸多领域。随着计算机的发展,学者们对光学三维测量的研究越加地深入。本文研究基于结构光进行三维SMT贴片缺陷检测,主要研究相位计算方法、三维测量系统的标定技术、硬件平台的设计和三维SMT贴片缺陷检测。结构光系统标定是三维检测的前提步骤,在主动视觉技术中,通常需要对摄像头和投影
学位
近年来,视频图像自动识别技术已经取得了显著的进步,人脸识别,车牌自动识别等视觉技术已经成为人们的日常,得到了非常广泛的应用,但是对于大多数用户来说,视频动作识别相对陌生,这与人民日益增长的安全需求相矛盾,所以基于监控场景的视频动作识别系统的普及也越来越迫切。本文的主要工作如下:(1)针对经典时空卷积网络(STGCN)对骨骼信息利用不足的问题,本文设计了一种基于多信息融合的残差时空图卷积网络。首先在
学位
API接口是分层体系架构中一组事先定义好的函数,为确保系统各层级之间可以通过接口交互良好,接口需要进行详细测试。在实际接口测试工作中,常用的Jmeter、Python等测试程序,对于测试新手有一定难度,Postman则难以对测试用例进行统一管理。此外,这些测试工具均需要测试人员手动编写测试用例与脚本,并且在团队协作测试中难以实现资源共享,故需实现一个操作简单、功能全面的接口自动化测试系统来解决上述
学位
水下无线传感器网络(Underwater Wireless Sensor Network-UWSN)作为一种全新的方式为人类获取水下世界信息、勘探水下资源提供了帮助,并成为了当前的研究热点。水下环境相较于陆地环境,具有更高的复杂性,包括链路质量较差、网络利用率较低、水下设备能量受限难以充电和易出现路由空洞。这是水下环境中的路由面临的一项重大挑战。提出并设计可靠高效的空洞避免算法及水下无线传感器网络
学位
随着近几年“黑天鹅”事件的频发,居民收入和消费水平深受影响。为研究各省之间居民收入和消费水平状况,本文选取了全国31个省份(不包括港澳台)的居民消费水平和人均GDP的数据,通过描述性统计进行分析。研究得出了相关结论,并提出了针对性建议,以期助力我国经济高质量发展。
期刊
互联网时代使用深度学习技术保护个人隐私成为一种新的可行方案。在公共网络社交中,用户的声音特征、面貌特征保护主要依赖于通信软件的加密算法,在终端和链路中缺乏针对特定隐私的保护。论文针对现有语音识别、语音合成、声纹识别、信号处理等语音技术,提出一套基于语音技术保护用户身份隐私的安全通信方案。论文提出的方案分为本地端处理和服务端部署两个部分。在本地端综合信号处理和模型处理两种方法,对语音数据做声纹去识别
学位