【摘 要】
:
目前,随着手机普及率的提高,加之社交网站、购物网站的普遍应用,手机注册的普遍性,用户手机号已成为商家广为利用的营销工具。随之而来的垃圾短信,不仅占用网络资源,干扰用户
论文部分内容阅读
目前,随着手机普及率的提高,加之社交网站、购物网站的普遍应用,手机注册的普遍性,用户手机号已成为商家广为利用的营销工具。随之而来的垃圾短信,不仅占用网络资源,干扰用户正常生活,也给传统的垃圾短信过滤带来了巨大的挑战。海量短信文本的过滤需要很大的存储空间以及更强的计算能力,如何对海量的数据进行有效的过滤是一个亟待解决的问题。随着云计算分布式系统Hadoop平台的出现,提出了新型的分布式并行编程模型,为垃圾短信过滤提供了新的思路。垃圾短信过滤的本质是短信文本分类问题(垃圾短信/合法短信)。本课题首先对短信文本分类过程涉及到的文本预处理、特征选择、文本分类算法等相关技术进行深入研究。通过对当前垃圾短信过滤算法的对比研究,选取朴素贝叶斯垃圾短信过滤算法,再结合Hadoop分布式平台在海量数据处理方面的核心技术,提出一种基于MapReduce模型的朴素贝叶斯的垃圾短信过滤方法。本文的研究工作特点表现在下面几个方面:一、在特征提取阶段,利用信息增益和CHI相结合的方法对特征选择算法进行改进,减少特征向量空间维度,优化运算时间和存储空间;二、对朴素贝叶斯垃圾短信过滤算法进行改进,在分类决策阶段引入阈值,减少将合法短信判断为垃圾短信误判概率,提高分类的准确性;三、针对短信过滤的效率问题,提出基于Hadoop分布式框架,采用并行计算模型MapReduce对短信文本预处理、特征词选择、文本分类训练和测试进行处理,在处理海量短信时具有明显的优势;最后实验结果表明:本文提出的分布式架构下基于MapReduce模型的海量垃圾短信过滤方法,在提高短信过滤准确率、召回率,综合效率的同时,过滤效率也随着集群规模的扩增而提高。
其他文献
爬壁机器人作为一种极限机器人,已经成为当前机器人领域中研究的一个热点,它能代替人工在极限条件下完成多种作业任务,降低了人工作业的难度与风险系数,无论是在军用领域还是
无线传感器网络不同于传统的网络,无线传感器网络通常被部署到恶劣或是特殊的环境中,一般无法实现对其节点进行充电或更换电池,所以如何通过优化节点分布来实现无线传感器网
准确而自动的表达出体数据模型中包含的结构信息是可视化领域尚未完全解决的难题。传统的基于物理光学模型的可视化方法主要试图实现真实感的图像绘制效果,很难突出体数据中感
随着网络信息产业的发展,服务器的工作效率和可靠性的要求越来越高,集群技术和云计算技术随之诞生并开始蓬勃发展,虚拟化技术作为实现云计算的关键技术也越来越被关注。在虚拟化
随着互联网技术的飞速发展以及云存储技术的不断完善,大规模数据的处理机制也发生了巨大的变化。面对在互联网应用中每天产生的大规模数据,本中心提出了面向双边资源整合服务模
在对计算机模拟MBR研究中,发现由于膜在空间上仅占据整个系统的很小一部分,造成了模拟中对膜过程实际现象进行充分、深入表达的需求与计算量限制之间的矛盾,从而导致“仿而不真
随着电生理仿真规模的大幅增加并随之而来的数据量的剧增,人们越来越需要一个能够实时可视化并且能够在计算过程中进行干预控制的电生理仿真系统。如何完成这样一个电生理仿真
风能,作为可再生能源,无穷无尽,清洁环保,已成为许多国家可持续发展战略的一个重要组成部分,因此,风力发电得到了迅速的发展。风电机组工作环境恶劣,长期受到正常和极端温度、降雨、积雪、沙尘、太阳辐射等环境因素的影响,各部件也必将不可避免随着运行时间的变化而老化,可靠性下降,导致故障发生,影响风电场的安全稳定。风力发电机作为风电机组故障率较高的部件,对其进行实时状态监测,及时发现故障征兆,确定合理的维护
人脸识别作为一种典型的生物特征鉴别方式,已经成为模式识别领域中一个重要的研究方向,具有广阔的应用前景。近年来移动互联网的迅速发展对人脸识别的应用也随之产生了新的需求
随着计算机互联网技术的发展,实时数据流成为数据信息中一种重要的数据形式,且已被广泛应用于网络流量控制、数据监测系统、互联网金融等领域。如何快速有效的从高速、大量的