论文部分内容阅读
随着信息技术的快速发展,互联网进入了web2.0时代。在这个日新月异的网络发展浪潮中,人们沟通的渠道从传统的电子通讯产品转向方便快捷的社交媒体,如微博和微信。由于微信用户面对的是现实生活中的朋友圈,这导致人们发送微信内容时往往有所顾虑。而微博用户面对的是虚拟网络,所以博文内容拘束性弱,更能反应人们的真实情感和观点。作为高校学生常用的社交软件之一,微博也为大家了解高校学生生活、学习、心理等状态提供一种有效的渠道。因此,如何有效地提取和挖掘蕴含在海量博文中的情感信息是一项很有意义的研究。目前国内学者对于博文的情感分析,主要是针对某一热点话题的舆情分析。本文主要是通过博文的情感分析探索某高校学生的兴趣点和心理健康问题,结合统计方法和机器学习方法研究该高校学生微博情感特点,并建立异常博文情感的识别系统。所提的方法可应用于国内各高校学生的博文情感研究。本文数据是通过爬虫技术从某高校官方微博中随机抽取学生的博文信息。论文结构如下:第二章通过从博文中的关键词提取,发现不同学历学生的博文内容存在差异,本科生和硕士生的文本常用词汇十分接近,但博士生与前两者差异较大。第三章改进了文本分词,构建词向量,使用主成分分析对词向量降维并计算合成词的与情感词典中的词汇相似度,最终量化这类合成词的感情色彩。第四章构建了预测博文情感的评分卡模型。经过测试集验证,模型的AUC值达到0.86,表明该评分卡模型对微博的情感特征评定具有较高的精确度。第五章分析博文情感分的影响因素,从情感得分挖掘学生们在推送不同主题博文时的情感差异,发现微博的内容和娱乐美食有关时,博文情感得分偏高,和科研学习有关时,博文情感分较低。构建了异常博文情感观察系统,可用于识别有严重心理问题或极端情绪的学生。