Hadoop平台下垃圾短信过滤系统的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户：wan801130

【摘要】

：

近年来,随着手机用户的增长,短信作为其主要业务成为了用户日常交流的主要工具之一,但是与此同时也滋生出大量的垃圾短信,这些垃圾短信的出现已经对用户的正常生活和财产安全

【作者】

：

宋晓莹

【机构】

：

西安理工大学

【出处】

：

西安理工大学

【发表日期】

：

2016年期

【关键词】

：

垃圾短信过滤 Hadoop平台贝叶斯算法决策因子

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着手机用户的增长,短信作为其主要业务成为了用户日常交流的主要工具之一,但是与此同时也滋生出大量的垃圾短信,这些垃圾短信的出现已经对用户的正常生活和财产安全造成了非常严重的影响。如何快速并且精确的对接收到的未知短信分类并且将垃圾短信进行过滤已经成为现阶段刻不容缓的需要解决的问题。对现有的垃圾短信过滤技术进行研究发现其中存在一些不足,基于关键字的过滤算法操作简单但是过滤精度太低,基于内容的过滤算法过滤效果好但是对设备要求高且实现过程复杂。本文主要研究工作如下:1.首先研究了近年来比较流行的云计算中的Hadoop平台,发现其具有很高的可靠性,可扩展性和容错性,并且对硬件设备的要求很低等优势,选取Hadoop平台作为垃圾短信过滤系统的应用平台。2.通过对现阶段常用的垃圾短信过滤算法进行分析和比较,发现贝叶斯算法相比较其他算法而言分类时间较短,因此选取贝叶斯算法作为主要的过滤算法。3.短信过滤系统中,在短信预处理阶段选取特征向量的时候,为了减小特征向量的维度,使得每个向量更准确的表示短信的类别信息,将传统的特征降维函数TFIDF的参数进行改进,更加精确的把权重较小的特征向量筛选掉;短信过滤系统的分类阶段,为了减少正常短信被判定为垃圾短信时产生的风险,本文通过判定时产生的决策因子,计算出判定为各个类别的短信的条件风险,最后将未知短信归类到条件风险较小的一类中。4.将改进的垃圾短信过滤系统通过Hadoop平台上的MapReduce编程模型分别对其训练过程和分类过程进行Map函数和Reduce函数的编程实现,并使用Hadoop平台上的HBase存储数据库对短信类别的文件信息进行存储。通过对垃圾短信过滤系统的性能进行对比实验发现,引入Hadoop平台,垃圾短信过滤系统的加速比较普通PC单机上增加了 0.227,改进的贝叶斯算法和TFIDF算法的融合使垃圾短信过滤系统的准确率提高了 3%左右,查准率和召回率也有了较为明显的提高。

其他文献

基于边缘特征的蓝屏抠像视频检测

互联网的发展,信息传播速度越来越快,数字视频作为崭新的媒体,声形并茂地展现着各种消息。人们不再局限于对于图片的浏览,为了获取更真实、更即时的信息,更多的会选择视频作

学位

数字视频检测蓝屏抠像合成视频颜色滤波矩阵(CFA)

MIMO-OFDM系统同步及信道估计的技术研究

随着无线移动通信的蓬勃发展,人们对于信息传递的要求也越来越高,伴随着第三代移动通信技术的应用,全球正在向移动信息时代迅速迈进。但是有限的频谱资源成为制约移动通信发

学位

正交频分复用多输入多输出同步信道估计

串行通信在永磁同步电机控制系统中的应用

为了使电机驱动系统具有良好的人机交流功能,设计了一套针对永磁同步电机控制的监控系统.该系统以PC机为主机、数字信号处理器(DSP)为从机,采用MSComm控件自行设计了上位机程

期刊

串行通信永磁同步电机监控

浅谈外语焦虑下的英语新闻听力任务

大学英语四级听力改革新增新闻听力,给广大非英语学习者造成相当了一定的障碍.本文从情感角度出发,以外语焦虑为切入点,层层分析新闻听力焦虑.通过回顾和分析相关文献,本文认

期刊

新闻听力焦虑外语听力焦虑听力任务听力能力

ForCES集群路由器资源管理的研究与实现

控制件与转发件分离(ForCES)的集群路由器架构,能很好地满足下一代网络对路由器所提出的开放性、可扩展性、可编程性以及高可用性的需求。为了使用户高效的、透明的使用ForCE

学位

ForCES资源管理作业调度资源分配

低端太赫兹天线设计与研究

太赫兹波是对一个特定波段电磁波的统称,由于它在电磁波谱中所处的位置,决定了它具有很多特殊的性质,将太赫兹波应用于通信领域具有广阔的前景。与微波通信相比,太赫兹通信的

学位

太赫兹单频天线双频天线低频端

运动观测站测时无源定位新方法研究

利用运动观测站获取非合作辐射源位置信息的无源定位技术,在军用和民用领域有着广泛的应用。现代无源定位系统正向着高精度、网络化的方向发展,试图使用最小的载荷代价对辐射

学位

到达时间到达时间差异步观测运动观测站周期估计克拉美劳下限无源定位

基于网络编码的LTE-A系统上行链路干扰抑制研究

LTE及LTE-A通信系统因其特有的技术优势,即将被广泛应用,其相关研究也一直是通信产业界的热点话题,小区间干扰便是学者们重点关注的问题之一。由于LTE及LTE-A系统采用OFDMA接

学位

LTELTE-A网络编码干扰抑制分集

LTE-Advanced调度算法研究

随着通信技术和市场的发展,不久之后,多媒体消息、视频点播、音乐下载和移动电视等数据业务的需求将远远超越现有网络的能力。与其他无线接入方案相比,WCDMA/HSDPA空中接口和

学位

LTE-Advanced技术无线资源管理信道模型分组调度算法

全球芯双包层光纤激光器的关键技术研究

光纤激光器具有体积小重量轻、光束质量好、散热面积大、转换效率高、阈值低等显著优势，成为激光器的主流发展方向。但由于在掺杂光纤中存在热效应、非线性效应以及光学损伤等

学位

全球芯双包层光纤激光器多芯自组装相干合束法衍射模型输出功率排布方式散热装置

Hadoop平台下垃圾短信过滤系统的研究

其他学术论文