基于情绪特征的中文微博用户性别识别

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:yingyingpps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体的迅猛发展,微博成为备受用户青睐的网络交流平台,微博用户性别识别逐渐成为学术界研究的热点。心理学和语言学领域的大量研究表明男性和女性在情绪表达上存在差异。然而,目前利用两性情绪差异帮助识别微博用户性别的研究较少。本文以中文微博文本为研究对象,从情绪的角度出发,分析微博文本中两性表达情绪的差异,并以两性情绪差异为特征,对中文微博用户的性别进行识别。首先,本文对中文微博情绪识别进行了研究,主要包括两个方面。一方面,对大量中文微博中表情符号的使用特点、分布情况和情绪表达特点进行了统计分析;根据统计数据为表情符号构建情绪向量,并利用其识别微博情绪。在两个数据集上的实验结果表明,本文建立的表情符情绪向量,有效地提高了微博情绪识别的精度。另一方面,提出了多层次中文微博情绪识别方法。本文将Ekman六类情绪按照情感极性及情绪间的相互关系组织成三层树状结构,在此基础上提出了一种多层次微博情绪识别方法。实验结果表明,该方法降低了各情绪类微博数量分布不平衡对分类结果造成的影响,提高了微博情绪识别的精度。其次,本文从两性表达情绪的差异出发,提出了一种基于情绪特征的中文微博用户性别识别方法。本文考虑的情绪特征包括Ekman情绪特征、情绪词特征和与情绪相关的语言风格特征。实验结果表明,本文提取的情绪特征提高了用户性别识别的精度。最后,本文基于微博文本中词汇的性别倾向性,对如何构建性别倾向性词典进行了探索。首先提取性别倾向性候选词。然后根据候选词在男性和女性微博中使用频率的差异,提取性别倾向性词,加入性别倾向性词典。若一个候选词在男性用户中的使用频率高于女性用户,则将该候选词作为男性倾向性词。否则,将其作为女性倾向性词。最后使用构建的性别倾向性词典,对微博用户的性别进行识别。
其他文献
近年来,各种低功耗的笔记本、手机、掌上电脑都配置了无线网络接口卡,很方便地接入到无线网络中。无线网络广泛的应用于资源共享、移动会议、救援、战场、探险、环境监控等领域
地震作为一种自然灾害给人类造成了巨大的损失,卫星遥感技术作为一种新型的对地观测技术被应用于地震科学的各个领域中。卫星遥感数据维度高,数据量大,传统人工分析手段已无
随着计算机网络技术、多媒体技术和通讯技术的发展,视频会议技术的开发和应用已经成为网络应用的热点之一,ITU和IETF两大组织分别提出自己的网络多媒体架构。高速的压缩技术
近年来综合模块化航空电子系统(IMA)已经广泛应用于机载航空电子系统,是航空领域的一项重要系统结构和发展趋势。在IMA系统开发过程中,针对系统满足资源共享以及安全可靠运行
无线多媒体传感器网络已成为计算机领域的前沿课题之一。无线传感器网络节点因受到体积、能耗、存储容量和通信能力等诸方面的限制,节点的设计需考虑诸多因素。本文通过分析
通过图形学的方法描述自然界的各类复杂的现象一直以来都是计算机图形学领域众多研究工作者所关注的重点,而对动态流体的交互模拟更是该领域的研究热点和难点。它是一个复杂的
机会网络是依靠节点彼此偶遇的机会进行信息传递的自组织网络,其概念涵盖了由于节点移动等因素造成间歇式连通甚至非连通、网络拓扑结构复杂多变、对网络结构没有预先知识的各
无线传感器网络作为传感器技术、无线通信技术、微电子系统技术和分布式信息处理技术相结合的产物,成为计算机科学领域的一个重要的研究分支。无线传感器网络是由大量具有感知
由于基于种群的进化算法在单次运行中能近似出一个Pareto解集,因此多目标进化算法已成为一种较为普遍且有效的求解多目标优化问题的方法。本文将基于分解和排序的方法融入到
随着万维网的发展,越来越多的信息被数字化,信息检索成为最广泛使用的计算机应用技术之一。每一秒,都有成千上万的人在搜索万维网上的信息,期望找到满意的结果。评价是信息检索的