基于RNN和CRF联合的微博情感分析方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:Keldorn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体的快速发展,微博用户数量不断增加,其日活跃用户数量达到1.5亿。用户通过微博来发表观点、表达情感、分享和传播信息,所产生的庞大数据资源蕴藏着巨大的商业价值,吸引了国内外学者投身到微博情感分析研究工作中。在微博情感分析任务中,虽然纯文本数据资源较多,但有标注的数据集却较为匮乏,从而导致模型不能得到较好的训练。针对此问题,研究者们在纯文本数据集和标注数据集构成的混合语料上,利用Skip-Gram、CBOW等语言模型对词表示进行更新,来学习微博短语中的语义信息,进而提高模型情感分析的性能。在上述理论基础上,本文提出了基于循环神经网络(RNN,Recurrent Neural Network)和条件随机场(CRF,Conditional Random Field)的微博情感分析方法,具体研究内容包括:(1)通过对否定词后出现的动词、形容词和副词添加否定标记,对有否定词出现的微博短语进行否定扩散,该方法通过改变否定词后情感词包含的情感信息,来协助模型对包含否定词的微博短语实现情感转移。(2)微博情绪识别任务中不平衡数据集导致模型倾向于预测高频情感类别,本文提出基于语义相似度的数据集平衡方法,以解决此问题。该方法通过将语义相似度最大、情感类别相同的样本合并为一个样本,从而在没有信息损失的情况下缓解数据集的不平衡性。(3)在循环神经网络和条件随机场模型的基础上,提出双向长短期记忆网络与条件随机场联合的微博情感分析模型(BLSTM-CRF,Bidirectional Long Short Term Memory-Conditional Random Field)。该模型在完成序列标注模型训练的同时,训练语言模型,从而使模型训练过程中可以充分的利用已有数据,来学习上下文的语义信息、协助模型预测微博短语的情感类别。本文在细粒度NLP&CC 2013情绪识别、粗粒度CCIR 2014情感倾向性分析和电脑、酒店、书籍平衡数据集的消费评价任务中,验证了此模型的有效性。
其他文献
3月15日,《中华人民共和国民法总则》获十二届全国人大五次会议表决通过,自2017年10月1日起施行。中国民事法律制度从此开启"民法典时代"。民法总则不仅充分构建了我国民商事法
目的:通过临床病例分析,总结使用涡轮机拔除复杂阻生牙胚的拔除术中及术后并发症的防治和体会。方法:对下颌第三磨牙牙胚1000枚拔除的总结,减少术中及术后并发症,将牙胚分瓣取出。
针对由永磁同步电机(PMSM)中磁钢与定子铁心之间相互作用而产生的齿槽转矩引起的电机振动与噪声、输出转矩波动、影响控制精度等问题,以一款48槽8极的PMSM为例,提出采用田口
近年来,首都互联网企业先后成立党组织、开展党建工作,这标志着首都互联网行业党建工作走上正规化、常态化。在互联网企业开展党建工作,有助于党组织在互联网企业内发挥政治
国务院日前印发 《划转部分国有资本充实社保基金实施方案》。根据要求,将中央和地方国有及国有控股大中型企业、金融机构纳入划转范围。公益类企业、文化企業、政策性和开发性金融机构以及国务院另有规定的除外。划转比例上,首先以弥补企业职工基本养老保险制度转轨时期因企业职工享受视同缴费年限政策形成的企业职工基本养老保险基金缺口为基本目标,划转比例统一为企业国有股权的10%。
目的:探讨诱导型环氧合酶(COX-2)在兔主动脉粥样硬化(atherosclerosis,AS)组织中的表达及其与斑块易损性之间的关系。方法:以高脂饲料喂养建立兔主AS模型,并与正常饲料组对照
【正】 一是要立足本职,进一步提高市场监管执法水平。要着力健全长效机制,大力强化日常规范管理,切实保障食品消费安全;以药品、医疗、保健食品、化妆品、美容服务广告为重
项目简介:插花艺术讲究植物学、花卉学、色彩学、设计学、美术等所学知识的搭配,讲究艺术和技术的完美结合。第44届阿布扎比世界技能大赛中,中国代表队获得一枚宝贵的金牌。
意识及其反作用问题是马克思主义意识论研究的重要问题之一。借鉴当今科学家的最新研究成果,马克思主义意识论中关于意识和意识的反作用的问题获得了新的解读范式和维度。邦
通过正能量宣传来传递好的价值观,同时遵循互联网传播规律、研究市场的生存和发展道路,才能找到真正适合各网站的应对之策。