论文部分内容阅读
随着信息推送技术的兴起和迅速发展,微博已成为这种技术的最流行衍生平台之一,并且逐渐成为网络用户发布信息重要场所之一。以往网络上的安全问题如色情、暴力、恐怖等非法信息的传播也逐渐出现在微博平台上,这些信息极大的影响了国家和社会的稳定。由于微博是近几年新出现的传播平台,以往的网络监管系统还没有加入对微博的监管,微博监管系统正是为了完善网络监管的全面性而出现的。微博监管系统用于监管微博平台上信息的合法性。这些信息的合法性主要是从两方面来进行判断:第一是判断微博本身内容的合法性;第二是如果微博分享了网络上的信息,则判断这些分享内容的合法性。基于系统扩展性的考虑,本文采用层次化设计的方法来设计系统。该设计方式使得以后如果需要增加系统功能变得容易。微博监管系统的层次结构包括微博内容爬取层,微博内容存储层以及微博内容分析层。微博内容爬取层负责爬取微博平台上的微博内容以及下载微博信息中分享的网络内容。微博内容存取层负责数据的存取,这些数据包括微博内容本身以及微博中分享的网络数据。微博内容分析层负责对这些数据进行分析,如对文本进行分类,分析平台上的舆情信息如话题追踪等。本文主要完成了微博内容爬虫模块和微博分享内容下载模块中的视频网站文件下载功能,微博内容分析层中的微博内容分类模块。微博内容爬虫模块主要尽可能的获取微博平台上的所有微博信息,微博内容爬虫模块采用了类似于网络爬虫的思想并结合微博平台提供的接口来实现。微博爬虫模块主要步骤包括Oauth认证,微博用户爬取,用户微博获取和微博内容分析。在分析出微博中的分享的视频文件的url后完成了这些视频文件的下载,视频下载功能完成了多线程中视频真实下载地址的解析线程和多个下载线程之间的同步。最后是对微博内容进行分类,微博分类主要是使用朴素贝叶斯分类器来完成的,斯分类器的流程包括文本预处理,分类器分类和人工审核过程。其中文本预处理程序中的分词功能采用了中科院的ICTCLAS分词系统。