【摘 要】
:
随着社交网络的发展,互联网上积累了海量的文本数据,分析文本的情感极性对政府、企业和个人都具有重要的意义。早期的情感分析旨在判断段落或句子的整体情感极性,无法识别句中不同方面的情感极性。方面级情感分析旨在判断句中不同方面的情感极性,近年来受到学者的广泛关注。基于深度学习的方面级情感分析方法能够克服传统机器学习方法对特征工程的依赖,并具有显著的分类效果。然而,基于深度学习的方面级情感分析研究存在以下问
论文部分内容阅读
随着社交网络的发展,互联网上积累了海量的文本数据,分析文本的情感极性对政府、企业和个人都具有重要的意义。早期的情感分析旨在判断段落或句子的整体情感极性,无法识别句中不同方面的情感极性。方面级情感分析旨在判断句中不同方面的情感极性,近年来受到学者的广泛关注。基于深度学习的方面级情感分析方法能够克服传统机器学习方法对特征工程的依赖,并具有显著的分类效果。然而,基于深度学习的方面级情感分析研究存在以下问题:模型选取单一、无法建模句子层级结构、长度较短与情感表达不清晰的句子的特征提取困难。本文针对上述问题展开研究,主要研究内容如下:(1)单一选取卷积神经网络或者循环神经网络存在特征提取不充分、难以关注对分类结果有重大影响的词和忽略句子层级结构的问题,并且传统语言模型无法表达多义词。针对上述问题,提出基于多头注意力与BERT的多通道模型。该模型采用BERT生成动态词向量,弥补传统语言模型无法表达多义词的不足,将文本词向量与方面词的词向量拼接后作为模型的输入;引入多头注意力机制使模型关注对分类结果有重大影响的词语;引入有序神经元长短时记忆网络建模句子的层级结构,提取文本的上下文语义信息,同时利用卷积神经网络提取文本的局部特征,增强模型的特征提取能力。在中英文数据集上开展三分类实验,结果表明该模型在准确率和宏平均上均优于所选取的基线模型。(2)长度较短和情感表达不清晰的句子的特征信息有限,传统模型难以从此类句子中提取出足够的特征信息。针对上述问题,本文进一步研究文本自身特点,提出基于多特征与注意力机制的模型,同时设计一种对距离敏感的位置编码策略。该模型提出将情感特征和词性特征融入文本词向量,弥补传统模型仅以文本词向量作为输入的不足;采用双向门控循环单元网络提取文本的上下文语义信息;针对传统模型对位置信息提取不足的问题,设计一种对距离敏感的位置编码策略;利用注意力机制学习方面词与上下文之间的关系。在三个公开的英文数据集上开展二分类和三分类实验,结果表明该模型在准确率和宏平均上均优于所选取的基线模型,并且该模型对于长度较短和情感表达不清晰的句子具有良好的分类效果。
其他文献
医学图像配准的主要目的是对相同设备拍摄的不同场景或者不同设备拍摄的相同场景下一系列图像进行适当的空间变换,使得两幅或多幅图像间的对应点在空间位置上对齐。把医学图像配准技术应用于医学影像分析,可以辅助进行疾病诊断和手术治疗。但是由于成像技术的不同,产生很多不同模态的医学图像。若能够有效结合多种模态图像的成像优势,提供更加准确和互补的信息,从而为医生在疾病诊断和手术治疗中提供更全面的依据。解决上述问题
光热转换智能水凝胶可以将光能转化为热能,再通过热能引发水凝胶材料的响应行为。这种具备光热转换功能的智能水凝胶材料在药物缓释、海水淡化、光驱动器件等领域具有良好的应用前景。但是目前的光热复合水凝胶存在光热转换性能差、响应速度慢、力学性能不佳、功能单一等缺点。针对这些问题,本文以开发新型具有优良光热性能的多功能水凝胶为目标,将聚N-异丙基丙烯酰胺(PNIPAM)温敏水凝胶分别与高光热转换效率的二维MX
近年来,随着科学研究和工程技术的发展,各领域对计算能力的需求越来越大,促使了多核计算系统的快速发展,国内外主流计算平台核心数不断攀升。根据科学计算领域的二八法则,程序中20%的代码往往占据80%的执行时间,这些时间占比较大的代码块通常是程序中的循环结构。因此,利用多核并行计算资源来提升程序中核心循环的性能是一个重要的研究方向。Open MP是基于编译指示的共享存储多线程并行编程模型,由于其简单、高
随着我国可持续发展战略的实施与不断深化,建筑垃圾资源化利用的研究也在持续升温。将破碎后的建筑垃圾作为骨料制备再生混凝土,是建筑垃圾资源化利用的重要途径之一。建筑垃圾在破碎过程中会产生大量粒径小于0.16 mm的微细粉末,约占建筑垃圾总质量的15%,即再生微粉,具有一定的潜在活性。相比于再生粗骨料和再生细骨料,再生微粉的回收及应用研究并不充分。与此同时,随着我国经济的快速发展,新型工程建设项目不断涌
历史文化名镇在我国的历史文化村镇体系中有着“乡之头,城之尾”的重要地位,体现着重要的历史价值、文化价值和人文价值。我国历史文化名镇保护工作成绩显著,极大地带动了古镇的经济和社会发展,但是部分地区也出现了一些大拆大建、拆旧建新、过度商业化等问题。我国相关法律法规中明确指出应当定期对规划的实施进行监督检查,但是由于我国规划实施评价工作开展较晚,在学术层面的研究处于起步阶段,尚未形成系统的理论体系。因此
2020年新基建的发展在中国大地上形成燎原之势,为国家稳经济、稳增长助力。中国社会也正伴随着新基建的发展步入智能时代,众多互联网及其相关产业发展迅猛的同时,大量的核心关键技术仍然存在“受制于人”的风险。公众对我国互联网的安全性存在一定疑虑,最具有代表性的质疑莫过于“美国能否按下中国互联网的暂停键?”之类的言论。作为互联网中最关键的基础设施,DNS(Domain Name System,域名系统)的
云计算凭借其强大的计算能力和存储能力得到了用户的认可,服务上云已成为行业应用发展的趋势。然而,云计算在给我们的生活带来了极大便利的同时也引入了新的问题,如云上的虚拟机容易受到攻击者影响、云资源分配不合理等。分析当前的云计算安全与资源分配研究现状,仍存在以下三个方面的不足:1)为了便于运维和管理,当前的云环境大多采用静态同质架构,然而静态同质的云计算环境容易成为攻击者的目标,增大了云平台被攻击的可能
语音是人们交流沟通的主要方式,随着计算机和智能电子设备的使用越来越广泛,人机交互成为了人们的必然需求,为了更加便利地使用智能电子产品,可以使用语音来实现人机交互。语音实现人机交互需要两个过程,一是智能电子设备“听懂”人类发出的语音信息,即语音识别;二是智能电子设备将文本转换为语音“说出来”,即语音合成。一般在人机交互的过程中,人们只需要听到智能电子设备发出的语音即可,但随着基于深度学习的语音合成技
近年来,随着移动支付、人工智能、边缘计算等技术的快速发展,传统零售模式发生了巨大变革。在阿里巴巴提出“新零售”的背景下,基于计算机视觉的智能售货柜受到了广泛关注。智能售货柜需要快速准确的识别目标商品,获得顾客拿取的商品信息并进行结算。但目前大多数商品识别系统部署在服务器,随着智能售货柜设备的增多使得服务器的压力增大,不能达到商品实时检测的效果,影响顾客购物体验。本文设计并实现了一种轻量化的商品识别
随着网络规模的不断扩大和各类网络应用的不断发展,互联网己成为人类生活中必不可少的基础设施。与此同时,各类网络攻击活动也日益猖厥,给网络空间安全带来了巨大的隐患。网络钓鱼是指在互联网上进行的一种用户欺诈行为。攻击者通过钓鱼网页诱骗用户输入其账户、密码等信息以窃取用户的私密信息及财产,给网络用户带来了极大的损失,因此,如何准确、高效地检测钓鱼网页是网络安全的研究热点。迄今为止,国内外学者已经提出了很多