论文部分内容阅读
近年来,伴随着工业化的快速推进,中国的经济发展取得了重大成就,居民生活水平显著提高。然而随着经济的高速发展,工业集聚、能源消耗和产能过剩现象愈显突出,空气质量日益恶化,雾霾在全国范围内不断扩散,在气候、环境、健康、经济等方面造成显著的负面影响,并在互联网发展的推动下,引起社会公众的广泛讨论。居民通过在社交平台中发表言论表达对雾霾现状的态度,反映对雾霾事件的关注点与诉求。在此背景下,基于居民发表的微博内容分析雾霾舆情中居民的情感特征,有助于把握居民对雾霾相关问题的意见和诉求,及时发现社会环境中存在的疏漏。同时,为正确引导居民关注点,控制雾霾舆情中居民负面情绪的扩散,可以从统计视角探索在雾霾舆情中导致情感差异的宏观因素,发现调控与改进方向,为及时调节雾霾事件中居民的负面情感,并制定合理的预警与应对措施提供借鉴。本文在梳理国内外相关文献的基础上,通过文本挖掘、情感分析与社会网络分析方法进行雾霾舆情中的情感倾向测度与其影响因素研究。在情感倾向测度中,首先,基于文本挖掘技术,采集2018年具有“雾霾”关键词的微博数据共计690072条,并进行噪声处理、文本分词与停用词处理,保留176076条微博有效评论数据;其次,利用大连理工大学构建的情感词汇本体库、中国知网构建的程度副词和否定词库构建特征词典,并使用Word2Vec方法与表情符号词频统计,扩展现有情感词典并抽取微博文本中的情感信息;最后,基于情感词典测度雾霾舆情中居民的情感得分,划分情感类型,采用精确率、召回率、F值等指标验证情感分类的准确性,并采用词云图、时间趋势折线图与热力地图等统计可视化工具,从类型特征与得分特征角度描述情感分布情况。在影响因素分析中,首先,借助社会网络分析法构建省际情感关联网络;其次,基于块模型刻画情感关联的网络结构与聚类特征;最后,采用QAP回归方法探究情感关联的影响因素,进而提出相关政策建议,以期为控制负面情感扩散与共振,促进社会环境有序发展提供参考。研究主要得出以下结论:第一,雾霾舆情中居民的负面情感占比较高,主要表现为:对雾霾现状的愤怒、悲哀、失望、恐惧与惊讶;对雾霾治理现状的不满与怀疑;对导致雾霾相关行为的愤怒以及对雾霾损害身心健康的恐惧。第二,2018年的雾霾舆情中的居民负面情感强度在时间分布上整体呈现U型趋势;在空间分布特征中呈现出由北向南强度下降的空间格局。第三,雾霾舆情下不同省域负面情感存在较明显的空间关联性,根据各个位置在网络结构中的作用将31个省域分为东北、西北、东南与西南部的四个板块,其板块内部的情感具有显著关联性,在相似的结构特征下趋于收敛,表示不同区域在雾霾舆情中的负面情感存在较明显的分化格局。第四,省域间空气质量、污染治理、收入水平、互联网发展与空间距离差异对雾霾舆情下居民情感关联存在显著负向影响,即各指标差异越小居民情感强度越相似,其中空气质量情况与污染治理力度标准化系数相对较高,对雾霾舆情下居民情感影响较大。本文的创新之处主要体现为以下三个方面:第一,采集690072条2018年中国31个省域(不包括港澳台地区)居民发表的雾霾相关微博文本数据,作为雾霾情感研究的基础数据源。第二,采用社会网络分析更准确的考察各省域之间负面情感的空间关联等统计特征,具有全局性分析的特点,避免“相邻”或“相近”的局限。第三,目前情感的影响因素研究中多考虑性别、年龄、学历等个体微观特征,而雾霾问题属于宏观社会经济问题,宏观因素对雾霾舆情中的居民情感具有较大影响,因此本文从宏观视角探讨雾霾舆情中的居民情感的影响因素,探究导致情感差异的因素,为及时调节雾霾事件中居民的负面情感,并制定合理的预警与应对措施提供借鉴。本文的不足之处主要体现为以下两个方面:第一,在基于情感词典的情感倾向研究中,情感词典中词表的全面性是研究的主要问题,本文在已有情感词汇本体库的基础上使用Word2Vec词向量训练法扩展了情感词典,但仍无法覆盖所有微博内容中的情感词,因此需要进一步完善情感词典。第二,由于中文表达的复杂性,居民在发表微博内容时存在一些反语现象,将导致研究结果一定程度上存在偏差。