炒作微博的特征分析与识别研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:ldlhongerfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博用户数量的快速增长,微博的炒作现象也越来越严重。“网络水军”和“网络推手”等利用微博散布谣言及虚假信息,严重干扰了网络秩序。目前,在对微博炒作的研究方面,主要集中在微博问政和微博传播伦理研究上,对炒作微博的深层次识别研究较少。因此,提取出炒作微博的典型特征并构造高效的分类识别器就成为了本文的研究重点。微博的特征提取和分类算法对识别准确率有较大影响。本文首先对微博的典型特征进行分析并提取。然后,在对经典的支持向量机(Support Vector Machine, SVM)算法进行研究的基础上,结合粒子群算法(Particle Swarm Optimization, PSO)和遗传算法(Genetic Algorithm, GA)构造出PSO-SVM 和 GA-SVM分类器,用于优化SVM中参数选择的随机性,对比分析得出较优分类器用于识别炒作微博。具体研究内容如下:首先,阐述了炒作微博的研究背景、国内外的研究现状,以及本文的研究内容。其次,对传统的支持向量机分类算法原理与核函数选择进行了介绍,说明了粒子群算法和遗传算法用于优化SVM核参数和惩罚因子的原理。然后,基于数据爬取工具爬取到的微博信息,利用natlab和Pajek绘制出传播结构图、散点图和累积分布函数曲线分析了微博的特征,并使用基于传统的模块度算法改进的Fast-Newman算法和Floyd算法来提取出社团模块度和平均最短路径。针对名人效应对炒作微博识别准确率的干扰问题,进一步分析提取出关键用户属性特征。接下来,针对传统SVM的参数选择的人为随机性和耗时性,使用PSO和GA算法优化SVM参数,构造出PSO-SVM和GA-SVM分类器,分析对比并使用特征向量对分类器进行训练,得出了具有较高检验准确率的分类模型。最后,定义分类器性能评价指标,并对实验结果进行了对比分析。实验结果表明,使用PSO-SVM分类器,结合提取出的6维特征向量,能够较好地克服名人效应对炒作微博识别准确率的干扰,有效地识别出炒作微博。最终分类准确率可以达到90%以上,并且误报率不到1%,F1度量值达到90%以上,说明PSO对SVM的参数优化具有明显的效果,PSO-SVM分类模型比较理想,能够高效地解决炒作微博的识别问题。
其他文献
随着飞速增加的带宽,实时和多媒体应用等网络业务的日益普及,网络拓扑结构日益复杂化,互联网从单纯的数据传输发展到同时支持多种类型信息的传输,互联网的质量评价体系也成为
互联网技术以及电子商务网站正在蒸蒸日上地发展着。近几年来,服饰商品在网上的销售量和销售额度得到了大幅的增长。但是在线购物网站带给人们的不仅仅是购物方便,同时也让用
随着多核处理器应用的普及,多核技术的发展越来越受到人们的关注。如何进行多处理器系统结构设计,以充分提高计算机性能是一个值得深入研究和探索的课题。尽管目前已经有很多
随着互联网的不断发展,网络极大的改变了人们的生活。网络上传递的信息种类越来越多,对计算机网络的数据传输技术也提出了新的要求,网络媒体分发技术也随之不断发展。P2P (Pe
随着通信技术的发展,通信传输能力已能满足更丰富的上层业务的需求。在众多新兴业务中,远程多媒体会议服务成为既符合客户需求,同时可以充分利用网络带宽的电信业务。与此同
随着通信网和互联网的发展,用户对通信业务的需求也在不断的变化。3G时代的到来,使得视频业务成为3G增值业务的焦点,用户需求也越来越便捷化、个人化、娱乐化。用户想通过手
随着网络技术的发展,网络用户与网络中流量飞速增加,需要连接网络的分布式路由器具有更快的转发速率,而IP报文在路由器FPGA (Field-Programmable Gate Array,现场可编程门阵
视频传感器网络(Video Sensor Networks)是一种由具有计算、存储和通信能力的视频传感器节点组成的分布式感知网络。节点定位是视频传感器网络进行目标识别、监控、跟踪等众
车牌自动识别系统是实现交通管理智能化的重要环节之一,研究车牌自动识别技术具有重要的实用价值。车牌自动识别系统一般包括车牌定位、字符分割和字符识别三部分。本文主要
信息检索是从信息集合中找出与用户需求相关的信息。本体作为一种表示知识的形式,具有良好的概念层次结构,支持推理功能,因此基于本体的信息检索能给检索服务性能带来极大的