论文部分内容阅读
近年来,随着手机用户的增长,短信作为其主要业务成为了用户日常交流的主要工具之一,但是与此同时也滋生出大量的垃圾短信,这些垃圾短信的出现已经对用户的正常生活和财产安全造成了非常严重的影响。如何快速并且精确的对接收到的未知短信分类并且将垃圾短信进行过滤已经成为现阶段刻不容缓的需要解决的问题。对现有的垃圾短信过滤技术进行研究发现其中存在一些不足,基于关键字的过滤算法操作简单但是过滤精度太低,基于内容的过滤算法过滤效果好但是对设备要求高且实现过程复杂。本文主要研究工作如下:1.首先研究了近年来比较流行的云计算中的Hadoop平台,发现其具有很高的可靠性,可扩展性和容错性,并且对硬件设备的要求很低等优势,选取Hadoop平台作为垃圾短信过滤系统的应用平台。2.通过对现阶段常用的垃圾短信过滤算法进行分析和比较,发现贝叶斯算法相比较其他算法而言分类时间较短,因此选取贝叶斯算法作为主要的过滤算法。3.短信过滤系统中,在短信预处理阶段选取特征向量的时候,为了减小特征向量的维度,使得每个向量更准确的表示短信的类别信息,将传统的特征降维函数TFIDF的参数进行改进,更加精确的把权重较小的特征向量筛选掉;短信过滤系统的分类阶段,为了减少正常短信被判定为垃圾短信时产生的风险,本文通过判定时产生的决策因子,计算出判定为各个类别的短信的条件风险,最后将未知短信归类到条件风险较小的一类中。4.将改进的垃圾短信过滤系统通过Hadoop平台上的MapReduce编程模型分别对其训练过程和分类过程进行Map函数和Reduce函数的编程实现,并使用Hadoop平台上的HBase存储数据库对短信类别的文件信息进行存储。通过对垃圾短信过滤系统的性能进行对比实验发现,引入Hadoop平台,垃圾短信过滤系统的加速比较普通PC单机上增加了 0.227,改进的贝叶斯算法和TFIDF算法的融合使垃圾短信过滤系统的准确率提高了 3%左右,查准率和召回率也有了较为明显的提高。