Hadoop平台下垃圾短信过滤系统的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:wan801130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着手机用户的增长,短信作为其主要业务成为了用户日常交流的主要工具之一,但是与此同时也滋生出大量的垃圾短信,这些垃圾短信的出现已经对用户的正常生活和财产安全造成了非常严重的影响。如何快速并且精确的对接收到的未知短信分类并且将垃圾短信进行过滤已经成为现阶段刻不容缓的需要解决的问题。对现有的垃圾短信过滤技术进行研究发现其中存在一些不足,基于关键字的过滤算法操作简单但是过滤精度太低,基于内容的过滤算法过滤效果好但是对设备要求高且实现过程复杂。本文主要研究工作如下:1.首先研究了近年来比较流行的云计算中的Hadoop平台,发现其具有很高的可靠性,可扩展性和容错性,并且对硬件设备的要求很低等优势,选取Hadoop平台作为垃圾短信过滤系统的应用平台。2.通过对现阶段常用的垃圾短信过滤算法进行分析和比较,发现贝叶斯算法相比较其他算法而言分类时间较短,因此选取贝叶斯算法作为主要的过滤算法。3.短信过滤系统中,在短信预处理阶段选取特征向量的时候,为了减小特征向量的维度,使得每个向量更准确的表示短信的类别信息,将传统的特征降维函数TFIDF的参数进行改进,更加精确的把权重较小的特征向量筛选掉;短信过滤系统的分类阶段,为了减少正常短信被判定为垃圾短信时产生的风险,本文通过判定时产生的决策因子,计算出判定为各个类别的短信的条件风险,最后将未知短信归类到条件风险较小的一类中。4.将改进的垃圾短信过滤系统通过Hadoop平台上的MapReduce编程模型分别对其训练过程和分类过程进行Map函数和Reduce函数的编程实现,并使用Hadoop平台上的HBase存储数据库对短信类别的文件信息进行存储。通过对垃圾短信过滤系统的性能进行对比实验发现,引入Hadoop平台,垃圾短信过滤系统的加速比较普通PC单机上增加了 0.227,改进的贝叶斯算法和TFIDF算法的融合使垃圾短信过滤系统的准确率提高了 3%左右,查准率和召回率也有了较为明显的提高。
其他文献
互联网的发展,信息传播速度越来越快,数字视频作为崭新的媒体,声形并茂地展现着各种消息。人们不再局限于对于图片的浏览,为了获取更真实、更即时的信息,更多的会选择视频作
随着无线移动通信的蓬勃发展,人们对于信息传递的要求也越来越高,伴随着第三代移动通信技术的应用,全球正在向移动信息时代迅速迈进。但是有限的频谱资源成为制约移动通信发
控制件与转发件分离(ForCES)的集群路由器架构,能很好地满足下一代网络对路由器所提出的开放性、可扩展性、可编程性以及高可用性的需求。为了使用户高效的、透明的使用ForCE
太赫兹波是对一个特定波段电磁波的统称,由于它在电磁波谱中所处的位置,决定了它具有很多特殊的性质,将太赫兹波应用于通信领域具有广阔的前景。与微波通信相比,太赫兹通信的
利用运动观测站获取非合作辐射源位置信息的无源定位技术,在军用和民用领域有着广泛的应用。现代无源定位系统正向着高精度、网络化的方向发展,试图使用最小的载荷代价对辐射
LTE及LTE-A通信系统因其特有的技术优势,即将被广泛应用,其相关研究也一直是通信产业界的热点话题,小区间干扰便是学者们重点关注的问题之一。由于LTE及LTE-A系统采用OFDMA接
随着通信技术和市场的发展,不久之后,多媒体消息、视频点播、音乐下载和移动电视等数据业务的需求将远远超越现有网络的能力。与其他无线接入方案相比,WCDMA/HSDPA空中接口和
光纤激光器具有体积小重量轻、光束质量好、散热面积大、转换效率高、阈值低等显著优势,成为激光器的主流发展方向。但由于在掺杂光纤中存在热效应、非线性效应以及光学损伤等