论文部分内容阅读
随着Web2.0技术快速的发展,网络社交媒体已经成为了最活跃的社交平台,为数亿互联网用户提供良好的沟通渠道。以微博为代表的网络社交平台的快速发展,普通用户可以方便地、快捷地发布和传播各种信息,开始进入“人人都能掌握麦克风”的自媒体时代。微博凭借开放性平台、互联网终端、内容实时性及低门槛等特性,在广大网民中快速渗透,发展成了一个重要的社会化媒体,微博成为广大网民获取新闻时事、自我表达、人际交往、社会参与及社会分享的重要媒介之一,从而使得微博已经成为社会公共舆论平台之一。社交平台在加速信息公开的同时,也带来了虚假信息的泛滥。目前,这些普通用户制作的信息(UGC(User Generated Content))不仅成为媒体获取新闻线索的主要来源,而且在政府部门快速应对重大自然灾害、重大突发事件、重大群体性事件、社会热点问题过程中发挥着举足轻重的作用。由于普通用户的媒介素养参差不齐,造成微博新闻事件普遍存在着虚假、差错、欠准确等问题,导致公众人物和主流媒体成为很多网络谣言和虚假报道的推波助澜者,严重损害了他们的媒体公信力。同时也给政府部门应对突发事件时造成很多障碍和舆论压力。然而,当人们在社交网络进行分享、交流、互动的同时,垃圾信息也在不断的膨胀。由于微博发布门槛不高,以及相关的法律体系的不完善,致使垃圾信息及一些无意义的信息在微博平台上显现。在微博新闻媒体事件中也包含了大量的垃圾信息,直接影响了网民的实际体验与事件跟踪,也对谣言事件的辨别产生了影响。微博垃圾信息过滤是提高微博信息可用性的关键技术之一。当前迫切的需要一种技术来净化社交空间,营造一种健康的微博社交体系,所以,社交网络下的微博垃圾信息过滤技术已经成为普遍关注的热点问题之一。 本文面向微博领域进行识别过滤微博垃圾信息的研究,主要的研究工作及成果如下: 1)针对微博平台上的垃圾信息,通过详实的实验分析,提出了多个有效的垃圾信息过滤的特征。 2)采用朴素贝叶斯方法对微博垃圾信息进行过滤,实验证明该方法具有较好的过滤性能与时效性。 3)将微博垃圾信息过滤方法应用到微博UGC新闻认证系统中,使谣言事件的召回率和准确率得到提升。