微博监管系统部分模块的设计和实现

被引量 : 0次 | 上传用户:tnnd3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息推送技术的兴起和迅速发展,微博已成为这种技术的最流行衍生平台之一,并且逐渐成为网络用户发布信息重要场所之一。以往网络上的安全问题如色情、暴力、恐怖等非法信息的传播也逐渐出现在微博平台上,这些信息极大的影响了国家和社会的稳定。由于微博是近几年新出现的传播平台,以往的网络监管系统还没有加入对微博的监管,微博监管系统正是为了完善网络监管的全面性而出现的。微博监管系统用于监管微博平台上信息的合法性。这些信息的合法性主要是从两方面来进行判断:第一是判断微博本身内容的合法性;第二是如果微博分享了网络上的信息,则判断这些分享内容的合法性。基于系统扩展性的考虑,本文采用层次化设计的方法来设计系统。该设计方式使得以后如果需要增加系统功能变得容易。微博监管系统的层次结构包括微博内容爬取层,微博内容存储层以及微博内容分析层。微博内容爬取层负责爬取微博平台上的微博内容以及下载微博信息中分享的网络内容。微博内容存取层负责数据的存取,这些数据包括微博内容本身以及微博中分享的网络数据。微博内容分析层负责对这些数据进行分析,如对文本进行分类,分析平台上的舆情信息如话题追踪等。本文主要完成了微博内容爬虫模块和微博分享内容下载模块中的视频网站文件下载功能,微博内容分析层中的微博内容分类模块。微博内容爬虫模块主要尽可能的获取微博平台上的所有微博信息,微博内容爬虫模块采用了类似于网络爬虫的思想并结合微博平台提供的接口来实现。微博爬虫模块主要步骤包括Oauth认证,微博用户爬取,用户微博获取和微博内容分析。在分析出微博中的分享的视频文件的url后完成了这些视频文件的下载,视频下载功能完成了多线程中视频真实下载地址的解析线程和多个下载线程之间的同步。最后是对微博内容进行分类,微博分类主要是使用朴素贝叶斯分类器来完成的,斯分类器的流程包括文本预处理,分类器分类和人工审核过程。其中文本预处理程序中的分词功能采用了中科院的ICTCLAS分词系统。
其他文献
乔纳森·斯威夫特的作品一贯讽刺当时英国社会的种种弊端。国内外学者对其代表性著作《格列佛游记》的研究主要集中在讽刺艺术,社会理想和反人类的倾向。然而《格列佛游记》
改革开放以来,我国的经济实现了快速增长,人民的生活水平得到显著提高。然而,伴随着工业化和城市化的快速推进,我国的环境污染也变得日趋严峻。对此,传统文献主要从外部性、
近年来,由于人口压力巨大,社会经济活动越来越频繁,自然资源过度开采,造成全球气候条件持续恶化,社会秩序动荡,地震、洪水、海啸、战争、恐怖袭击、瘟疫等自然灾害、人为灾害以及生
幼儿的符号表征能力的发展是早期认知发展的重要组成部分幼儿在心理发展的过程中必需掌握使用符号,通过符号学习知识和与外界交流随着电子产品的普及,越来越多的低龄幼儿接触到
安全生产不仅关系着人民群众的生命财产安全和企业自身的生存和发展,也关系到改革发展和社会稳定的大局。在现代社会,我国虽然在安全生产治理方面有工作,取得了一些进步,但是
目的:以苦参碱为药物,壳聚糖、海藻酸钠、Fe304纳米粒等为辅料开发研究苦参碱pH敏感磁性凝胶小球、苦参碱磁性缓释颗粒及苦参碱颗粒三种新制剂,为临床治疗消化道肿瘤提供新的
<正>《应用海洋学学报》是国家海洋局第三海洋研究所、中国海洋学会、福建省海洋学会主办,中国生态学学会海洋生态专业委员会协办,国家海洋局主管,国内外公开发行的全国性综
瓦楞纸板是一种可重复使用,易再生,易回收的绿色包装运输材料。它价格低廉,质轻,容易折叠,方便运输,具有良好的印刷适性,强度高,因此在社会包装运输中应用广泛。而且随着纸箱
为探讨口鼻咽护理方法在胃镜下手术后留置胃管患者中的应用效果,本研究选取2015年1月至2016年6月在我院接受治疗的86例胃镜下手术后留置胃管患者为研究对象,根据计算机随机数
讨论了大型复杂机械系统状态监测和故障诊断研究的现状和存在的问题,指出在解决复杂工程问题上所存在的差距,探讨了解决问题的方法,提出了基于过程模型的故障检测和诊断方法的一