文本挖掘技术在短信息过滤中的应用研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户：lovelyhuanhuan

【摘要】

：

随着移动通信技术的飞速发展和手机普及率的迅速提高，手机短信以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式，受到众多人士的青睐。与此同时

【作者】

：

李楠

【机构】

：

南昌大学

【出处】

：

南昌大学

【发表日期】

：

2008年期

【关键词】

：

双过滤短信过滤粗糙集文本挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着移动通信技术的飞速发展和手机普及率的迅速提高，手机短信以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式，受到众多人士的青睐。与此同时，垃圾短信日益成为困扰手机用户和通信运营商的一个难题。目前经常采用的垃圾短信过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。基于内容的过滤是当前解决垃圾短信问题的主要技术之一。为了解决垃圾短信给人们生活带来的困扰，本文将文本挖掘技术应用到手机短信业务模型上，对短信进行过滤。本文设计并模拟实现了一种基于粗糙集的KNN算法垃圾短信双过滤系统。该模型包过短信预处理、特征提取、权重计算、粗糙集属性约简以及短信分类与过滤几个主要功能模块。本文的工作主要包含下列内容： (1)分析了多种特征选取算法，通过实验比较了它们的优缺点。 (2)提出了一种基于信息增益和方差的特征词的权重的计算方法，并对此方法的实现进行阐述。 (3)提出一种短信双过滤方法。KNN和粗糙集约简算法结合构成一次过滤。粗糙集约简算法降低向量空间维数，减少了特征数，降低了待分类短信数据集(测试数据集)的向量空间大小，从而提高分类速度。避免因为粗糙集约简影响分类的准确度，对已过滤为垃圾短信应用KNN算法再次过滤。 (4)在短信预处理过程中，奇异字处理、群发号码处理、短信内容整合和分词构成短信模型的预处理过程。 (5)阐述了文本分类的评价标准，通过实验对本课题所构建的分类工具进行了评估。总结了研究成果，指出了不足并提出了改进意见。最后对文本短信分类器进行了实验评估，实验表明此工具有较高的分类准确度，达到了设计的要求。

其他文献

基于D-S证据理论的网格信任模型研究

网格安全是网格计算系统中必不可缺少的机制。由于网格系统的异构、动态、多域等特点,网格安全问题比网络的安全问题更加复杂。为了解决网格环境的动态性和不确定性带来的安

学位

网格计算信任模型D-S证据理论

基于PC/104与PC机之间USB通讯的实现

目前，嵌入式工业计算机PC104，凭借其体积小、功耗低、集成度高及模块化等一系列优良品质，已广泛应用于工业控制、通信、数控、自动化生产设备、数据采集等领域。PC机(上位机)与P

学位

USB通讯CH375芯片连接器USB总线

模型检测形式化分析中若干关键问题研究

模型检测是近二十年来最成功的形式化自动验证技术之一。其因自动化程度高,效率高等优点而被广泛应用于并发系统的分析与验证中。与定理证明等其他形式化验证方法相比,模型检

学位

模型检测形式化分析SPIN反例语法重定序扩充Promela

基于动作捕捉数据的人体运动合成研究

基于动作捕捉数据的人体运动合成强调对现有捕捉数据的重用，是计算机图形学、计算机视觉等领域的重要研究内容。然而，由于三维人体模型的复杂性、运动数据的高维性以及人眼视觉

学位

动作捕捉数据人体运动合成关键帧插值特征匹配运动图

垂直搜索引擎中Web信息抽取技术研究

目前Web上的资源日益增多,为更有效地利用这些资源,近年来产生了垂直搜索引擎。它是面向专业或主题的搜索引擎,只采集与专业或主题相关的信息,这样就需要从Web页面等资源中抽

学位

Web信息抽取垂直搜索引擎主题信息新属性

基于组件的继电保护测试软件平台的研究与设计

继电保护测试装置能有效地检测继电保护装置的性能和工作状况,是保障电力系统安全稳定运行的重要设备。目前继电保护测试软件产品比较普遍,多数都是根据保护类型分为十几个通

学位

继电保护测试组件技术软件平台

基于OSGI的果品质量安全追溯系统研究与开发

食品质量安全是我们正常生活的基本前提，随着人们生活质量的不断提高，人们对食品的安全问题越来越关注。近年来食品质量安全问题时有发生，给老百姓生活带来极大困扰。针对此问题

学位

果品信息食品安全质量追溯系统网络结构OSGI.NET技术编码标准

室内停车场的智能引导系统关键技术研究

随着我国社会经济的飞速发展，城市机动车数量俱增，停车场的数量与规模不断增大。国内大多数停车场依靠场内管理人员指引，部分停车场入口处为驾驶员提示空车位数量，驾驶员在场内只

学位

室内停车场车位引导粒子群算法全局路径规划WIFI定位

RBF核支持向量机的参数快速选择方法的研究与实现

支持向量机(SVM)是机器学习领域中正在快速发展的一种技术，在模式识别、回归预测、密度估计等方面都有广泛的应用。支持向量机建立在统计学习理论的基础之上，特别适用于有限样

学位

RBF核支持向量机参数快速选择机器学习LIBSVM工具包

基于云的煤炭企业移动协同办公平台研究与实现

随着移动互联网技术的飞速发展，Android凭借着自身的优势，很快占领了移动智能终端市场，使得Android应用的开发成为热点；同时，基于Hadoop大数据对后端强大支撑能力的技术，也倍受软件

学位

煤炭企业移动互联网协同办公平台软件架构网络计算负载均衡

文本挖掘技术在短信息过滤中的应用研究

其他学术论文