论文部分内容阅读
最近两年来,以微博为首的社交媒体快速发展,例如新浪微博已经拥有几亿的注册用户和近亿的活跃用户。随着微博平台的发展,出现了很多垃圾用户。这些垃圾用户或发布广告、或发布谣言、或受雇转发,对微博平台的公开公正的信息传播造成了不良的影响。本文基于实际的新浪微博数据进行了垃圾用户的分析研究,建立了基于微博重复发布行为和LDA主题模型的垃圾用户检测模型SDM。基于此模型,在真实的垃圾微博数据中进行了垃圾用户甄别实验,并利用用户的其他信息进一步增强了算法的效果。主要成果如下:1.设计实现并行微博爬虫,在大量实际垃圾用户数据(新浪微博举报大厅)的基础上对微博的不同类型垃圾用户进行了行为分析,为提出垃圾用户检测模型提供了基础和依据。2.基于垃圾用户的行为特点(短时间内重复发布垃圾微博),提出了基于微博重复发布行为的垃圾用户检测模型SDM,从重复发布行为和垃圾微博内容两个方面对垃圾用户进行建模,得到用户重复发送行为的评估函数F(U)。3.在真实的微博垃圾用户数据集中,利用SDM模型进行了垃圾用户甄别实验。从有效性、参数对算法效果的影响和不同类型微博信息对效果的影响等方面进行了实验和分析。4.针对利用SDM模型进行垃圾用户甄别时参数难以确定、扩展性不足的缺点,使用基于SVM的垃圾用户甄别方法,将SDM模型计算出的重复行为评估函数作为SVM等通用分类算法的一维特征,结合其他特征进行实验。在真实微博垃圾用户数据中的实验结果证明,使用完整的特征集合,可以提高数据挖掘的效果,且具有更广泛的扩展性。