论文部分内容阅读
随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式,受到众多人士的青睐。与此同时,垃圾短信日益成为困扰手机用户和通信运营商的一个难题。目前经常采用的垃圾短信过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。基于内容的过滤是当前解决垃圾短信问题的主要技术之一。
为了解决垃圾短信给人们生活带来的困扰,本文将文本挖掘技术应用到手机短信业务模型上,对短信进行过滤。本文设计并模拟实现了一种基于粗糙集的KNN算法垃圾短信双过滤系统。该模型包过短信预处理、特征提取、权重计算、粗糙集属性约简以及短信分类与过滤几个主要功能模块。
本文的工作主要包含下列内容:
(1)分析了多种特征选取算法,通过实验比较了它们的优缺点。
(2)提出了一种基于信息增益和方差的特征词的权重的计算方法,并对此方法的实现进行阐述。
(3)提出一种短信双过滤方法。KNN和粗糙集约简算法结合构成一次过滤。粗糙集约简算法降低向量空间维数,减少了特征数,降低了待分类短信数据集(测试数据集)的向量空间大小,从而提高分类速度。避免因为粗糙集约简影响分类的准确度,对已过滤为垃圾短信应用KNN算法再次过滤。
(4)在短信预处理过程中,奇异字处理、群发号码处理、短信内容整合和分词构成短信模型的预处理过程。
(5)阐述了文本分类的评价标准,通过实验对本课题所构建的分类工具进行了评估。总结了研究成果,指出了不足并提出了改进意见。
最后对文本短信分类器进行了实验评估,实验表明此工具有较高的分类准确度,达到了设计的要求。