论文部分内容阅读
随着微博用户数量的快速增长,微博的炒作现象也越来越严重。“网络水军”和“网络推手”等利用微博散布谣言及虚假信息,严重干扰了网络秩序。目前,在对微博炒作的研究方面,主要集中在微博问政和微博传播伦理研究上,对炒作微博的深层次识别研究较少。因此,提取出炒作微博的典型特征并构造高效的分类识别器就成为了本文的研究重点。微博的特征提取和分类算法对识别准确率有较大影响。本文首先对微博的典型特征进行分析并提取。然后,在对经典的支持向量机(Support Vector Machine, SVM)算法进行研究的基础上,结合粒子群算法(Particle Swarm Optimization, PSO)和遗传算法(Genetic Algorithm, GA)构造出PSO-SVM 和 GA-SVM分类器,用于优化SVM中参数选择的随机性,对比分析得出较优分类器用于识别炒作微博。具体研究内容如下:首先,阐述了炒作微博的研究背景、国内外的研究现状,以及本文的研究内容。其次,对传统的支持向量机分类算法原理与核函数选择进行了介绍,说明了粒子群算法和遗传算法用于优化SVM核参数和惩罚因子的原理。然后,基于数据爬取工具爬取到的微博信息,利用natlab和Pajek绘制出传播结构图、散点图和累积分布函数曲线分析了微博的特征,并使用基于传统的模块度算法改进的Fast-Newman算法和Floyd算法来提取出社团模块度和平均最短路径。针对名人效应对炒作微博识别准确率的干扰问题,进一步分析提取出关键用户属性特征。接下来,针对传统SVM的参数选择的人为随机性和耗时性,使用PSO和GA算法优化SVM参数,构造出PSO-SVM和GA-SVM分类器,分析对比并使用特征向量对分类器进行训练,得出了具有较高检验准确率的分类模型。最后,定义分类器性能评价指标,并对实验结果进行了对比分析。实验结果表明,使用PSO-SVM分类器,结合提取出的6维特征向量,能够较好地克服名人效应对炒作微博识别准确率的干扰,有效地识别出炒作微博。最终分类准确率可以达到90%以上,并且误报率不到1%,F1度量值达到90%以上,说明PSO对SVM的参数优化具有明显的效果,PSO-SVM分类模型比较理想,能够高效地解决炒作微博的识别问题。