校园BBS舆情数据收集与提取系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:adamas522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络文化安全问题日益突出,同时网络舆情监控也变得日益重要。对于高校而言,复杂的网络环境不仅有很大的正面意义,对学校的思想教育工作也是极大的挑战,所以为了能够防微杜渐,高校需要及时掌握校园网络舆情的发展规律。BBS作为校园网内最活跃的公共平台,对于校园网BBS舆情信息的监测自然成为研究的重点,而这一课题首先需要解决的问题就是收集BBS页面数据,并提取出相关信息作为进一步舆情分析的数据基础。基于上述情况,本文首先对Web页面收集技术即网络爬虫进行了研究,并将其原理与BBS特性充分结合,提出了一个定向于校园BBS的舆情数据收集与提取系统。该系统采用正则表达式进行统一资源定位符(URL)过滤,此方法能够快速滤除不符合要求的URL。另一方面,系统将Bloom Filter算法应用到URL去重中,大大节省了已访问URL的存储空间。对于所获得的页面,系统根据它们对应URL的特征进行分类存储,然后进行模板化提取以增强系统的灵活性,其中模板采用可扩展标记语言(XML)的格式,提取规则通过标签序列和索引来实现。本文将BBS数据归为三大类,并采用不同方式收集,文章主要介绍了采用增量方式来获取更新数据的部分。最后,本文通过参数测试确定当循环间隔约为4h时,系统重复率或漏检率最低处于最佳状态。在此循环间隔下,本文还进行了系统功能测试,测试结果表明该系统能够满足需求,达到了预定目标。
其他文献
在社会信息化发展的推动下,无线局域网的优势日趋明显,已经覆盖了校园、商场、车站、机场、办公场所等人们日常活动范围。支持无线局域网的设备已经成为智能手机、PAD等数字
在视频编码和视频处理领域,运动估计和运动补偿技术对降低视频序列时间冗余度、提高编码效率起着非常关键的作用。运动估计的运算时间已占整个编码器编码时间的50%到80%[1],
网络教育作为一种新兴的教育模式,近年来在国内外得到了迅速的发展。现代网络教育作为计算机网络技术与多媒体技术迅速发展的产物,不仅成为了许多大学传统教学方式的有益补充,而
学位
本文主要研究超出传统纠错能力的代数译码算法,特别是设计了Reed—Solomon(RS)码和Bose—Chaudhuri—Hocquenghem(BCH)码的超限译码(list decoding)算法,并将代数译码算法应
随着高层建筑的增多,我们对电梯的依赖越来越多,对电梯的运行效率也提出了更高的要求。如今,很多高层建筑中都安装了多台电梯以满足繁忙的交通要求,为了提高电梯系统的运行效
伴随着计算机技术的快速发展,视频编解码技术得到了很大程度的提高。然而,随着人们对视频信息的渴求,单视点视频信息已经不再能够满足人们的要求。近年来,具有3D视觉功能的立
Internet已经成为人们生活和经济活动中一个不可或缺的重要组成部分,为了监测网络是否安全、高效、稳定地运行和维护,必须对网络流量的特征,网络流量的类别进行细致的分析和
在无线通信终端日益普及的今天,频谱资源已经成为了一种宝贵的稀缺资源。然而目前大部分的频谱都是固定分配给用户,但是用户对频谱的使用在时间和空间上都具有多样性,这样就
通过对简笔画的学习和训练,有助于提高儿童对物体的辨别能力,提高儿童眼手脑的协调能力,锻炼儿童的模仿能力和想象力。家长们通常借助各种交互式的简笔画学习工具辅助学习简
随着多媒体技术的快速提升,高清晰度数字视频的应用越来越广,视频数据量亦随之不断加大,然而,由于很难在实际应用中传输巨大的视频数据,导致对视频高压缩比技术的迫切要求日