论文部分内容阅读
随着社交媒体的迅猛发展,微博成为备受用户青睐的网络交流平台,微博用户性别识别逐渐成为学术界研究的热点。心理学和语言学领域的大量研究表明男性和女性在情绪表达上存在差异。然而,目前利用两性情绪差异帮助识别微博用户性别的研究较少。本文以中文微博文本为研究对象,从情绪的角度出发,分析微博文本中两性表达情绪的差异,并以两性情绪差异为特征,对中文微博用户的性别进行识别。首先,本文对中文微博情绪识别进行了研究,主要包括两个方面。一方面,对大量中文微博中表情符号的使用特点、分布情况和情绪表达特点进行了统计分析;根据统计数据为表情符号构建情绪向量,并利用其识别微博情绪。在两个数据集上的实验结果表明,本文建立的表情符情绪向量,有效地提高了微博情绪识别的精度。另一方面,提出了多层次中文微博情绪识别方法。本文将Ekman六类情绪按照情感极性及情绪间的相互关系组织成三层树状结构,在此基础上提出了一种多层次微博情绪识别方法。实验结果表明,该方法降低了各情绪类微博数量分布不平衡对分类结果造成的影响,提高了微博情绪识别的精度。其次,本文从两性表达情绪的差异出发,提出了一种基于情绪特征的中文微博用户性别识别方法。本文考虑的情绪特征包括Ekman情绪特征、情绪词特征和与情绪相关的语言风格特征。实验结果表明,本文提取的情绪特征提高了用户性别识别的精度。最后,本文基于微博文本中词汇的性别倾向性,对如何构建性别倾向性词典进行了探索。首先提取性别倾向性候选词。然后根据候选词在男性和女性微博中使用频率的差异,提取性别倾向性词,加入性别倾向性词典。若一个候选词在男性用户中的使用频率高于女性用户,则将该候选词作为男性倾向性词。否则,将其作为女性倾向性词。最后使用构建的性别倾向性词典,对微博用户的性别进行识别。