基于词向量扩充技术的文本情感分析研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:PILIYADAN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是计算机科学与语言学的交叉学科,主要研究的是计算机怎么处理和分析自然语言。情感分析(Sentiment Analysis,SA)是一个知识领域,它涉及人们对特定实体的意见、情绪、评估和态度。情感值的表示可以是离散的类别,如正面、负面、中性,也可以是连续的情感强度。情感分析主要是从数据集(推特、微博、贴吧论坛、电商网站的评论等)中提取评论者的主观情感信息,这对分析社交媒体和预测网络平台上的公众观点有很重要的意义,同时有利于商家或者媒体把握用户的喜好。随着深度学习研究的深入,在自然语言处理领域,尤其是情感分析这个研究方向出现了很多新的成果。本文对现有的情感分析技术和模型进行分析和研究,把单词的词典表征和向量表征相结合同时借助深度学习模型对所提出的技术进行实验论证。本文主要有三个方面的工作:1.首先对文本进行预处理,考虑到推特的社交性,需要处理表情符号、哈希标签、单词缩写、网址和标点符号等。同时还对停用词进行处理,并将所有单词转化为小写。2.然后用词嵌入将输入转化成深度学习模型能处理的二维矩阵,每条推特数据都是由相应的字向量在数据中叠加的二维数组。在拥有注释词典的基础上,对单词的表征进行扩展,使得每个单词不仅仅是原有词向量的维度还包括扩充后的维度,扩充之后的词向量比之前的词向量对词的表示更加丰富完整。3.有了前面的工作作为基础,接下来就是利用深度学习模型对数据进行训练和学习,论文主要用到的模型有卷积神经网络(CNN),长短期记忆人工神经网络(LSTM),双向长短期记忆人工神经网络(BiLSTM),然后再结合集成学习(Ensemble Learning)的方法对模型进行融合,实验结果表明论文提出的方法在三个不同任务上效果明显优于其他方法。
其他文献
随着通信技术的快速发展,人们对信息传输容量及速率的要求也越来越高。实现更大的数据传输容量是光通信的主要研究方向。其典型方法是复用多个独立的数据信道,比如波分复用(W
目的:探究计算机辅助设计结合三维有限元在股骨近端良性病变精准切除及生物力学重建的方法,评价计算机辅助设计结合三维有限元在股骨近端良性病变精准切除及生物力学重建方面
心力衰竭(heart failure,HF)是大多数心血管疾病的终末阶段表现为心脏收缩/舒张功能障碍的临床综合征。其发病率高,5年死亡率高达50%,匹敌甚至超过了多种癌症,已成为全球范围
超构材料作为一种具有特殊电磁特性的人工结构,具有与常规材料不同的奇特性质,比如负折射率、反向多普勒效应、反向切伦科夫幅值异常光压特性等。自超构材料诞生以来,就引发
目的:探讨缺血性脑卒中患者超声下颈动脉斑块微钙化的特征,评估缺血性脑卒中患者超声下颈动脉斑块微钙化与颈动脉斑块稳定性及动脉粥样硬化性脑梗死的相关性。方法:本研究收
设备到设备(D2D)通信因为其短距离直接通信可以降低时延等优势已经成为未来5G关键技术之一。然而,大量的D2D用户通过与蜂窝用户共享资源进行通信时,使用同频段的用户之间会造
随着不同类型传感器在网络中的广泛应用,多变量数据流的精确分类问题已经成为数据挖掘和机器学习领域的研究热点。由于网络中数据流的特征随时间和网络环境的变化而发生变化,
随着太赫兹技术的快速发展,近年来电真空太赫兹源及太赫兹放大器作为研究热点,一直被各国学者广泛探索,各种新型慢波结构的太赫兹行波管、返波管被不断提出。其中,大功率太赫
背景和目的:结肠癌是世界范围内常见的消化系统恶性肿瘤,据2018年全球癌症统计显示,结肠癌发病率为6.1%,居所有恶性肿瘤第4位;病死率为5.8%,居第5位。目前治疗左半结肠癌的主
本文首先通过对异常事件问题的分析,将视频中异常事件检测的重点放在检测没有明确类别定义的异常事件检测上。为了解决这个问题,本文将异常事件的检测分为视频的特征提取和异