文本挖掘技术在短信息过滤中的应用研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:lovelyhuanhuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式,受到众多人士的青睐。与此同时,垃圾短信日益成为困扰手机用户和通信运营商的一个难题。目前经常采用的垃圾短信过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。基于内容的过滤是当前解决垃圾短信问题的主要技术之一。 为了解决垃圾短信给人们生活带来的困扰,本文将文本挖掘技术应用到手机短信业务模型上,对短信进行过滤。本文设计并模拟实现了一种基于粗糙集的KNN算法垃圾短信双过滤系统。该模型包过短信预处理、特征提取、权重计算、粗糙集属性约简以及短信分类与过滤几个主要功能模块。 本文的工作主要包含下列内容: (1)分析了多种特征选取算法,通过实验比较了它们的优缺点。 (2)提出了一种基于信息增益和方差的特征词的权重的计算方法,并对此方法的实现进行阐述。 (3)提出一种短信双过滤方法。KNN和粗糙集约简算法结合构成一次过滤。粗糙集约简算法降低向量空间维数,减少了特征数,降低了待分类短信数据集(测试数据集)的向量空间大小,从而提高分类速度。避免因为粗糙集约简影响分类的准确度,对已过滤为垃圾短信应用KNN算法再次过滤。 (4)在短信预处理过程中,奇异字处理、群发号码处理、短信内容整合和分词构成短信模型的预处理过程。 (5)阐述了文本分类的评价标准,通过实验对本课题所构建的分类工具进行了评估。总结了研究成果,指出了不足并提出了改进意见。 最后对文本短信分类器进行了实验评估,实验表明此工具有较高的分类准确度,达到了设计的要求。
其他文献
网格安全是网格计算系统中必不可缺少的机制。由于网格系统的异构、动态、多域等特点,网格安全问题比网络的安全问题更加复杂。为了解决网格环境的动态性和不确定性带来的安
目前,嵌入式工业计算机PC104,凭借其体积小、功耗低、集成度高及模块化等一系列优良品质,已广泛应用于工业控制、通信、数控、自动化生产设备、数据采集等领域。PC机(上位机)与P
模型检测是近二十年来最成功的形式化自动验证技术之一。其因自动化程度高,效率高等优点而被广泛应用于并发系统的分析与验证中。与定理证明等其他形式化验证方法相比,模型检
基于动作捕捉数据的人体运动合成强调对现有捕捉数据的重用,是计算机图形学、计算机视觉等领域的重要研究内容。然而,由于三维人体模型的复杂性、运动数据的高维性以及人眼视觉
目前Web上的资源日益增多,为更有效地利用这些资源,近年来产生了垂直搜索引擎。它是面向专业或主题的搜索引擎,只采集与专业或主题相关的信息,这样就需要从Web页面等资源中抽
继电保护测试装置能有效地检测继电保护装置的性能和工作状况,是保障电力系统安全稳定运行的重要设备。目前继电保护测试软件产品比较普遍,多数都是根据保护类型分为十几个通
食品质量安全是我们正常生活的基本前提,随着人们生活质量的不断提高,人们对食品的安全问题越来越关注。近年来食品质量安全问题时有发生,给老百姓生活带来极大困扰。针对此问题
随着我国社会经济的飞速发展,城市机动车数量俱增,停车场的数量与规模不断增大。国内大多数停车场依靠场内管理人员指引,部分停车场入口处为驾驶员提示空车位数量,驾驶员在场内只
支持向量机(SVM)是机器学习领域中正在快速发展的一种技术,在模式识别、回归预测、密度估计等方面都有广泛的应用。支持向量机建立在统计学习理论的基础之上,特别适用于有限样
随着移动互联网技术的飞速发展,Android凭借着自身的优势,很快占领了移动智能终端市场,使得Android应用的开发成为热点;同时,基于Hadoop大数据对后端强大支撑能力的技术,也倍受软件