基于预训练语言模型的文本情感分析

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:hhttllzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的发展,选择网上购物的群体数量逐年增加,同时也产生了海量的评论文本,用户评论文本表达了顾客对购买商品的主观情感倾向。分析用户整体的情感倾向,以及针对不同方面的情感,可以帮助其他顾客更好的做出购买决策,也能够让商家了解用户喜好,改进产品并提高销量,因此具有重要的研究价值。然而很多文本没有天然的情感标签,如何利用机器学习或者深度学习解决标签数据不足这一问题,成为情感分析的一大难点。本文主要针对网购产品的用户评论进行句子级情感分析以及方面级情感分析,为了解决标签数据不足的问题,本文主要采用预训练的建模策略。在句子级情感分析任务中,提出基于预训练语言模型的GRU情感分类。首先,采用RNN神经网络GRU单元预训练语言模型,得到训练好的语言模型,并利用冻结和微调两种迁移学习方法,将其中的浅层网络参数迁移到结构相同的情感分类模型中。其次,为了解决传统RNN的句子表示存在一定偏差的问题,采用池化层进一步提取文本特征,对隐藏层的输出向量做平均池化与最大池化,再拼接最后一个单元的输出向量,作为整个句子的向量表示。最后,通过网络爬虫技术获取京东商城的手机评论文本,并作为实验数据集。实验结果表明,与传统机器学习和未预训练模型相比,本文提出的基于冻结的预训练语言模型准确率最高,同时改进传统的文本表示方法也能在一定程度上提升模型效果。针对方面级情感分析,本文进一步提出基于预训练语言模型的方面级情感分类。与句子级情感分析类似,采用冻结和微调两种方式对浅层的嵌入层与GRU隐藏层进行迁移学习。不同之处在于,后续情感分类模型采用结合Attention机制的方法,主要思想是根据给定的方面信息,对隐藏层特征赋予不同的权重,得到不同的文本表示,然后进行情感分类。最后采用五折交叉验证进行实验对比分析,发现采用微调的预训练模型准确率与F1-score比未预训练的模型均提高10%左右。
其他文献
引文在科研文献中普遍存在,是文章的重要组成部分。作者在撰写论文时引用他人的研究成果,一方面体现了作者对该成果的重视和兴趣,另一方面也在自己的研究成果中融入或类比了
文章以目前新興的漢字職用學理論為指導,對《北京大學藏西漢竹書[四]·妄稽》進行字詞關係以及與之相關的研究,如文獻改字、文本斷代等。文章分為五個部分:第一部分:回顧漢字職用學理論在近幾年的發展情況並介紹漢字職用學各個方面在近幾年的成果,之後介紹北京大學藏西漢竹書(包括《妄稽》篇)研究的進展和取得的成果,並簡單介紹研究方法與意義等。第二部分:結合《妄稽》篇出版以來的研究成果,對《妄稽》篇的文本進行討論
红山嘴地区有较好的勘探潜力,但勘探程度相对较低,这影响了红山嘴地区石炭系的勘探步伐。本次研究通过对岩心的精细观察及描述和样品的系统采集,利用偏光显微镜、扫描电镜、
自上世纪九十年代以来,X射线相位衬度成像技术一直是X射线成像领域的热点研究课题之一。X射线相位衬度成像技术主要包括晶体干涉仪成像,同轴相位衬度成像,衍射增强成像和光栅
山东省是我国的农业大省,如何通过调整政府财政对农业的支出从而提高农民收入,是山东省解决“三农”问题的重要举措之一。因此本文以山东省财政支农支出和农民收入为研究对象
目的:运用三维成像技术获取人体头面部三维图像,测量人体头面部特征指标,探讨五行体质与面部特征的相关性,为五行体质的辨识提供客观参数,也为临床望诊客观化研究提供新的方
近年来,科技快速地发展使信息量出现爆炸式增长,导致用户很难找到自己想要的信息而出现“信息过载”的问题。推荐系统作为信息过滤的常用方法,是解决“信息过载”的一种有效方式。推荐系统的核心是推荐算法,它决定推荐系统的性能。协同过滤技术作为一种推荐算法现已应用于推荐系统中。但这类算法的有效性有限,只能学到用户和项目的浅层次特征,而无法学到深层次的特征表示,因此制约推荐算法的性能。此外,数据量太大会出现数据
随着社会现代化程度的不断加强,网络信息资源作为这个时代的产物,其重要程度可见一斑,影响巨大。但是,网络信息资源长期保存中的信息安全事故频繁发生,对其安全性疏于管理将
论文从发展多功能的高性能器件对半导体材料性能多样性需求,以及半导体材料与金属电极接触势垒对器件性能限制的瓶颈出发,选择具有高电子迁移率的单层三磷化钙和单层三磷化铟
木论文面向工程陶瓷材料在各领域的应用需求,在氮化硅-六方氮化硼(Si3N4-hBN)复合陶瓷制备成型的基础上,设计并制备了氮化硅-六方氮化硼/钼(Si3N4-hBN/Mo)层状复合材料,对其