基于对抗训练的文本表示与文本分类方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:rliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示与文本分类被广泛的应用于网页拦截,邮件信息过滤和信息检索等领域,属于自然语言处理的基本任务。目前的基于深度神经网络的文本表示与文本分类模型虽然取得了很好的效果,但是在实践中被证明容易出现过拟合问题。近年来,将对抗训练方法应用于自然语言处理领域,通过在深度神经网络中添加对抗扰动,降低模型对于对抗扰动的敏感性,能够有效地缓解模型过拟合。因此,本文研究基于对抗训练的文本表示与文本分类方法,论文主要工作如下:(1)设计了基于语言模型对抗训练的文本表示与文本分类模型LM-LSTMAdv T。LM-LSTM-Adv T模型首先训练基于长短时记忆网络(Long Short-Trem Memory,LSTM)的循环神经网络语言模型的文本表示模型得到文本表示和网络权重,然后训练基于LSTM的文本分类模型进行文本分类。为了缓解模型LM-LSTMAdv T过拟合问题,在文本表示模型和文本分类模型都采用基于FCM的对抗训练方法,即在词向量层添加损失函数相对于词向量梯度的对抗扰动。实验结果表明,LM-LSTM-Adv T模型相对于未使用对抗训练方法的LM-LSTM模型在数据集AGNews、Subj、MPQA、CR、MR上分别提高了0.14%、2.17%、3.84%、8.48%和6.13%的准确率。另外,LM-LSTM-Adv T模型相对于仅在基于LSTM的循环神经网络语言模型的文本表示模型使用对抗训练方法的LM-Adv T模型在数据集Subj、MPQA、CR、MR上分别提高了0.87%、1.01%、0.12%和0.16%的准确率。(2)设计了基于序列自编码器对抗训练的文本表示与文本分类模型SA-Adv TLSTM-Adv T。SA-Adv T-LSTM-Adv T模型首先训练基于LSTM的序列自编码器文本表示模型进行特征提取,得到文本表示和网络权重,然后训练基于LSTM的文本分类模型进行文本分类。为了缓解模型过拟合问题,同样采用基于FCM的对抗训练方法训练文本表示模型和文本分类模型。为了充分研究SA-Adv T-LSTM-Adv T的模型效果,本文另外设计5种对比模型。实验结果表明,SA-Adv T-LSTM-Adv T模型与未使用对抗训练方法的SA-LSTM模型在数据集AGNews、Subj、MPQA、CR、MR上分别提高了0.78%、3.05%、2.1%、1.11%和5.27%的准确率,并且在与LM-LSTM-Adv T模型相比,SA-Adv T-LSTM-Adv T模型在数据集AGNews、Subj、MPQA、CR、MR上分别提高了0.82%、0.14%、0.45%、0.89%、0.58%的准确率。另外,本文还将LM-LSTM-Adv T模型和SA-Adv T-LSTM-Adv T模型与VVD、CNN、Fast Text等现有的文本表示与文本分类模型进行了对比,实验结果表明,在数据集AGNews、Subj、MPQA、CR、MR上,本文SA-Adv T-LSTM-Adv T模型的准确率优于其他模型。
其他文献
随着现代信息技术的发展,媒体资源日益丰富。互联网+背景下对我国中职妇产科护理教学有了更高的要求和标准。微信的广泛普及,课堂教学中越来越多地应用微信公众号和微信群。本研究试图构建和设计一个操作方便且能够满足师生教学需求的低成本网络化微信平台,并将应其用于中职妇产科护理教学中,利用微信平台搭载学习资源进行教学,让教师和学生在该平台线上线下积极互动、交流、合作以及共享知识,进而培养适应信息化时代要求的理
学位
2018年,《普通高中化学课程标准(2017版)》正式颁布并实施。高中化学新课标的出台和实施给现阶段高中化学教学提出了许多全新的要求,特别是化学学科核心素养被首次提出,这对化学教学方式的转变提供了实施的可能。新课标倡导教学的情境性,即提倡学生在真实的教学情境中学习与生产生活相贴近的化学知识。该论文探究的基于生活化情境的高中化学教学模式,具体指的是:以学生已有的生活经验为出发点,创设生活化的教学情境
学位
随着经济水平的不断提高,人们对于健康的防护意识也随之增强,绿色、高效的新型抗菌材料应运而生;同时随着老龄化社会的加剧,激发了抗菌医疗卫材的市场需求。目前的抗菌材料主
随着社会的发展进步,人们对儿童福利事业的关注度越来越高,对孤儿的关爱与保护工作正在进入一个制度更完善、职责更清晰、措施更有力的阶段。教育作为一种促进儿童身心健康的重要方式,在现阶段的儿童福利事业中扮演着越来越重要的角色。而在不断进步的儿童福利事业中,“模拟家庭”这一新型养育模式逐渐出现在公众视野,很大程度上弥补了福利院儿童因长期机构养育模式造成的亲情缺失,助其更好地回归主流社会。但这种新型的养育模
学位
缝洞型碳酸盐岩储层储量规模大,具有较高的产能,是重要的油气勘探领域。这类储层受成岩改造作用的影响,储集空间以次生孔隙为主,发育大量的裂缝和溶洞,孔径分布广。不同的裂
在2019版部编版高中语文必修教材中,整本书阅读教学作为一个单元呈现其中,这代表着整本书阅读教学在此次课程改革中必须落实,但新中国成立以来,我国语文课一直采用单篇课文精读精讲的教学模式,对于整本书阅读教学经验不足,尤其是《红楼梦》(部编版高中语文必修下册要求阅读书目)这样的鸿篇巨制,学生阅读和教师教学都面临诸多问题:《红楼梦》整本书篇幅长、人物众多、情节繁富,学生阅读比较困难;高中学生课业繁重、阅
学位
随着我国计划生育政策推行和社会经济的发展,我国家庭结构趋于小型化的独生子女家庭,其子女因求学、工作等原因离开原生家庭,促使父母在中年阶段就进入空巢期,进而构成了一种全新的家庭模式——新空巢家庭。其在认知、情绪、心理以及社会交往方面都会产生变化,致使新空巢家庭父母感到难以适应,从而对整体生活和发展产生消极影响。但因个体的受影响程度和适应能力不同,各新空巢家庭之间存在一定差异,因而需要向其提供有针对性
学位
随着教育信息化及教育现代化建设的不断推进,互联网与教育的融合使网络课程资源在实际教学中逐渐占据了重要位置,然而目前的网络课程资源在开发及应用时仍存在诸多问题。本研究针对实习学校的具体情况,依照新课改提出的“从生活走向物理,从物理走向社会”的理念,以人教版八年级物理上册知识点为基础,开发制作了与生活实际相联系的网络课程资源并用于实践,本文主要分为四个部分。第一部分:查阅文献资料,了解网络课程资源的研
学位
近年来,在制造业逐步向智能化转型的大背景下,机器人技术开始更广泛的被运用于建筑、医疗、商品分拣、汽车制造等行业,仿人机械手作为机器人的末端执行器,与人手具有类似活动关节,相比于执行特定任务所设计的传统机械手,具有更高的灵活性、通用性和适应性。但仅通过增大仿人机械手的尺寸大小扩展手指工作空间范围及不合理的抓取点位置分布均会影响机械手抓取稳定性。为解决该问题,本文对仿人机械手的工作空间尺寸和抓取布局点
近年来,经济与科技的发展走上了“快车道”,人们对生活水平的要求也是越来越高。智慧城市不再仅仅是一个虚无的概念,而是开始逐渐地服务于人们的日常生活。作为智慧城市的一个重要分支,智能交通引起了广大学者的研究兴趣。在自然场景下,利用车牌识别技术可以对智能交通进行快速有效、准确有序的管理。但是针对传统的车牌识别系统,其算法的鲁棒性较低、抗干扰能力不足,在光照条件较差、车牌倾斜、脏污破损等复杂场景下,车牌定