面向数据特性的文本情感分析方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:jinr0op4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体与电商平台为数以亿计的用户提供着便捷的工作、生活和社交娱乐服务的同时,也散布着海量的文本数据,其中,用户生成的文本数据中蕴含着丰富的情感信息。深入分析、挖掘这些数据中隐含的情感信息,服务于社会管理和商业运营,正是文本情感分析技术追求的目标。文本情感分析是指综合运用自然语言处理与机器学习等技术对文本中的情感信息进行抽取、处理、分析和推理的过程。社会媒体中的文本数据纷繁复杂,观察和统计表明,社会媒体数据具有:类别非平衡、标签数据缺乏、情感表达隐晦、情感载体多样等特性,这些数据特性给文本情感分析带来了巨大挑战。针对上述数据特性,本文旨在运用数据采样、半监督学习、嵌入表示、深度学习等技术,围绕文本情感分类、反问与反讽句识别、可解释推荐模型建立等问题,开展系统深入的研究,发展文本情感分析理论与方法。主要研究内容与创新点如下:(1)局部稠密下采样与全局再平衡的文本情感分类方法非平衡文本情感分类。社会媒体评论文本数据的情感类别非平衡性会导致分类模型的偏置问题,从而影响模型的分类效果。本文提出了一种局部稠密区域下采样与全局再平衡的文本情感分类方法(LDMRC+SS/RS)。该方法在局部稠密边界区域构造由少数类样本组成的无向完全图,通过裁剪距离其边最近的多数类样本点使局部平衡,设计了核心下采样算法LDMRC。在此基础上,使用SMOTE上采样(SS)或随机下采样(RS)进行数据的全局再平衡。在8个中英文非平衡数据集上的实验结果表明,LDMRC在各项评价指标上优于边界区域裁剪算法(BRC),LDMRC+SS/RS普遍优于LDMRC算法,验证了所提方法的有效性。(2)协同混合半监督文本情感分类方法标签数据不足条件下的文本情感分类。高质量标签数据的缺乏对监督学习形成严峻挑战。本文提出了一种协同混合半监督文本情感分类方法。该方法提出了样本簇相似性度量、样本关于学习器的不确定度和可靠度等样本特性度量的新概念。利用簇相似度结合聚类技术,给出了一种初始种子集选取方法,在一定程度上保证初始种子集与整体数据分布的一致性。提出的样本关于学习器的不确定度和可靠度等概念为伪标记样本选择提供度量依据,可保证训练数据集的扩展质量。设计的异质协同轮换迭代训练策略有利于构建更好的集成分类器。在8个中英文数据集上进行了一系列对比实验,验证了所提方法的有效性。(3)基于语言特征自动获取的反问句识别方法反问句识别。针对特征自动抽取问题,提出了一个基于双向长短期记忆网络(Bi-LSTM)和注意力机制的语言特征自动抽取模型(AutoF)该模型使用BiLSTM表示句子,再通过标签注意力机制,获取既能反映上下文信息又能刻画反问句特性的特征。针对反问句识别问题,提出了一个基于层叠注意力机制融合特征信息的反问句识别模型(AutoF+AOA)。该模型采用层叠注意力机制将目标句的特征序列信息融入目标句的表示中,用于反问句识别。在微博数据集上的多组对比实验表明,与现有方法相比,提出的方法可显著提升中文反问句识别的效果。(4)多信息融合表示的反讽句识别方法反讽句识别。针对显式特征抽取问题,利用基于BERT(Transformers的双向编码表示)与标签注意力联合作用的显式特征抽取模型。该模型利用BERT表示目标句,计算反讽标签对句子中token的注意力权重,然后选取注意力权重较大的词、短语、标点、符号(token)等作为显式特征。针对句内情感极性反转和上下文环境情感差异的信息,在对目标句及其上下文进行情感分类的基础上,提出了基于句子表示差的刻画方法。针对反讽句识别问题,提出了一种基于层叠注意力和向量拼接的信息融合方法。该方法融合了显示特征、词间关系、句内情感反转、环境情感差异多种信息的句子最终表示用于反讽句识别。在IAC、Reddit movies等数据集上的比较实验表明,提出的多信息融合表示的反讽句识别方法显著优于现有其他方法。(5)基于方面项情感分析的可解释推荐方法可解释性推荐。在产品评论数据中,方面项可以作为构建用户与产品间关系的媒介。针对方面项情感信息抽取问题,利用一种在BERT上构建的序列标注模型,自动获取评论数据的方面项情感信息,服务于后续的用户-产品关系建模。针对用户和产品的关系表示,定义了用户对方面项的偏好度、方面项对产品口碑的贡献度,用于从方面项的角度刻画用户兴趣和产品口碑,从而构建了基于用户-产品关系的关联二部图。为了增强推荐系统的推理能力,提出了基于方面项对用户(产品)的注意力机制的图神经网络更新策略。最后,以用户对产品的打分构造模型的损失函数,训练获得稳定的用户-产品关联二部图神经网络。在Restaurant数据集上的实验表明,基于方面项情感分析的可解释推荐模型,可充分利用产品评论数据中方面项的情感信息提升产品推荐的可解释性。
其他文献
“镇江香醋”是我市的传统名牌产品,具有155年的悠久历史,经过镇江几代人的艰苦创业,“镇江香醋”已成为镇江的象征,特别是作为“镇江香醋”创史者的恒顺酱醋厂,以其产品具有
在对熵理论的概念及其应用的发展过程和企业流程再造的概念综述的基础上,分析了BPR过程中企业系统熵的变化规律,并提出了企业在实施BPR时将熵作为评价标准之一的方法.
7月20日,农业部在京启动“十三五”现代农业产业技术体系。农业部副部长张桃林指出,2007年起,农业部联合财政部先后启动建设了水稻、油菜、生猪、大宗淡水鱼等50个现代农业产业技术体系,以农产品为单元、以产业为主线,以问题为导向,集聚中央和地方优势科技资源,围绕农业产业开展联合攻关、试验示范、技术培训、政策咨询和应急服务,在促进技术进步和推动农业转型升级方面发挥了重要作用。  张桃林表示,体系显著提