基于改进遗传算法的支持向量机微信垃圾文章识别

来源 :计算技术与自动化 | 被引量 : 0次 | 上传用户:seacloudnemo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:近几年,随着微信的快速发展和普及,微信已经成为智能移动设备必备的应用之一,但与之同时也出现了大量微信诈骗信息、垃圾广告等,给人们带来了极大的困扰。本文将从搜狗微信搜索中抽取微信文章样本,将微信垃圾文章识别看做文本分类问题,采用支持向量机对样本进行分类模型的训练,并应用改进的遗传算法对支持向量机的参数进行优化。文中详细的介绍了改进遗传算法在支持向量机上的应用,相比传统的支持向量机,采用改进遗传算法对支持向量机参数进行优化,提升了模型准确率和优化效率。在文章的最后进行了由15000篇微信文章所形成的测试集上的分类模型效果实验,实现结果表明,本方法能够达到94.7%的准确率,非常准确的识别微信垃圾文章。
  关键词:支持向量机;遗传算法;特征选择;参数优化;垃圾文章
  中图分类号:TP391.1文献标识码:A
  1引言
  随着微信应用的快速发展和普及,微信已经成为移动智能设备中必备的应用之一,与之同时也出现了大量微信诈骗信息,垃圾广告等垃圾文章。这些信息不仅浪费了用户的带宽和时间,同时也对互联网的安全构成了较大的威胁。因此如何识别此类微信文章显得格外重要。
  传统的解决方案为黑名单方法,黑名单方法收集发表垃圾文章的用户,将用户ID加入垃圾用户黑名单列表。但由于微信用户量大、并且增长速度快、黑名单方法不仅实施周期长,并且工作量大。
  微信垃圾文章识别的过程可视为一个文本分类的过程,对于文本分类问题,样本经过特征选择后,每一个样本被当做一个n维特征向量空间中的向量、作为机器学习算法的输入。常用的机器学习方法有:K-近邻(K-Near Neighbor)[1]、朴素贝叶斯(Na
  4实验结果
  实验数据来源于搜狗微信搜索数据源,实验共选取了5组训练集,和2组测试集。
  第一,采用不同数量的训练集对模型进行训练,记录模型训练的准确率、召回率、F值,如表2:
  通过对不同数量的训练集对模型进行训练,可以看出,当采用TRAIN1,数量为685对模型进行训练,准确率、召回率、F值非常低,随着训练样本的增多,准确率、召回率、F值的提升非常快,这说明训练样本数量对模型整体的训练效果有非常大的影响。
  采用TRAIN5所训练的模型,进行3组不同数量测试上的实验,几率其准确率、召回率、F值,如表3:
  从上表可以看出,使用同一训练集,准确性稍有升高,幅度不大,表明模型是相当稳定的。召回率与F值稍有下降,说明训练集中并没有覆盖所有实际情况,某些特殊实例没有被包含进来。
  从上面两组实验结果可以得到,基于改进遗传算法的支持向量机微信垃圾文章识别,对于搜狗微信搜索数据源具有良好的效果,其实验结果有益于后续研究的继续进行。训练所得模型的准确率、召回率、F值能够满足实际应用的需求。
  5结论与展望
  本文采用支持向量机对微信文章垃圾文章进行识别,并应用改进的遗传算法对支持向量机进行参数优化,最终得到最优的参数组合,从了得到了能够进行良好分类的分类器。今后的主要工作集中在优化特征选择,对某些重要特征进行加权处理,并考虑平衡数据和费平衡数据对分类器训练效果的影响,使得分类的准确率、召回率、F值获得更大程度的提高。
  参考文献
  [1]ANDROUTSPOULOS I,PALIOURAS G,KARKALETSIS V,et al. Learning to filter spam email: A Comparison of a Naive Bayesian and a MemoryBased Approach[C].Proceedings of the workshop on machine learning and textual information access, 4th European conference on principles and practice of knowledge discovery in databases. Lyon, France: [sn.].2000:1-13
  [2]ANDROUTSOPOULOS I,KOUTSIAS J,CHANDRINOS K, et al. An evaluation of nave Bayesian antispam filtering[C].Proceedings of the 11th European conference on machine learning.Barcelona, Spain:[sn.].2000:9-17.
  [3]CARRERAS X,MARQUEZ L. Boosting trees for antispam email filtering[C].The Forth International Conference on Recent Advances in Natural Language Processing. Bulgaria: Tzigov Chark.2001:58-64.
  [4]CORTES C,VAPNIK V. Support vector networks[J].Machine Learning.1995,20(1):273 –329.
  [5]平源. 基于支持向量机的聚类及文本分类研究[D].北京:北京邮电大学,2012.
  [6]KUBAT T M,MATWIN S. Addressing the Curse of Imbalanced Training Sets: OneSide Selection[C]. Proceedings of the 14th International Conference on Machine Learning. USA: Nashville.1997:217-225.)
  [7]李人厚.智能控制理论和方法[M].陕西:西安电子科技大学出版社,2005.
  [8]杨淑莹,著.模式识别与智能计算—— Matlab技术实现[M].北京:电子工业出版社,2008..
  [9]施聪莺,徐朝军,杨晓江. TFIDF算法研究综述[J]. 计算机应用,2009,S1:167-170 180.
  [10]DASH M, LIU H. Feature Selection for Classification[J]. Intelligent Data Analysis, 1997, 1(3): 131-156.
其他文献
【正】 在农村,电价的高低直接影响工农业生产和群众生活,维系着人民群众的切身利益。当前,由于发电、送电、用电等关系尚未完全理顺,电源供需之间严重脱节,加上管理工作没有
通过覆冰四分裂导线与单导线风洞试验,得到了4种不同工况下的空气动力系数,接着采用等效替代法得到关于四分裂导线中心轴的等效气动力系数,再将该系数与相同条件下进行风洞试
战国初期商鞅变法 ,使秦国由弱变强 ,为秦始皇统一中国打下坚实的基础 ,使中国社会由奴隶社会进入封建社会。商鞅变法的思想 ,源于“更法思想”和“民本思想”的进步历史观。
实行农资专营制度两年来的实践证明,专营政策是正确的,并取得了一定成效,它带来了购销两旺、供求矛盾缓解,价格趋稳,流通秩序好转的好形势,为广大农民所欢迎。但是,专营过程中也出现
采用双差重定位和W震相波形反演方法分析"地震编目系统"和中国地震台网中心提供的地震观测报告及区域地震波形数据,对2019年四川长宁地震序列进行了重定位,反演获取了M>4.5地震的震源机制解。地震序列重定位结果显示,长宁地震序列沿NW优势方向呈条带状分布,集中分布于5—10 km深度范围,且发震断层面呈高倾角。震源机制反演结果表明,2019年6月17日四川长宁M_S6.0主震的两个可能发震断层面参数
如图1所示,三根质量均为m、长均为l的匀质细杆铰接后成一直线静止于光滑水平面上,今在AB杆的质心G处作用一垂直于杆的水平冲量I。试用冲击问题的拉格朗日方程,(1)证明冲击后A
针对目前城市规划信息公众化程度不高的现状,研发一个面向公众服务的城市规划GIS平台。利用城市规划地理信息数据云端管理技术,将多类城市规划数据与GIS数据进行无缝集成,并提出UMSA体系解决原有的瓦片地图切图无法多端共用的问题,采用B/S架构和Weblogic9.2+J2EE1.4+JDK1.5环境进行平台的搭建。研究成果在深圳市得到很好应用,在很大程度上提高了面向公众服务的城市规划地理信息综合管理
从"三十年河东三十年河西"这样的现象联想到人体循环系统中的血液流动。针对动脉粥样硬化、动脉瘤、主动脉夹层等常见的动脉血管病变,介绍了这些血管病变及其治疗方法中蕴含
陆面数据同化系统的输入和输出数据以其格式多样性、海量性为主要特征。以GIS二次开发组件ArcGIS Engine,ArcSDE空间数据库引擎和SQL Server 2005数据库管理工具,利用C#、IDL编程语言,构建土壤湿度同化数据空间数据库,并将气象数据具有时间域、空间域和属性域等多维属性与GIS数据模型相结合,研制开发综合分析处理系统,实现土壤湿度同化输入参数与输出数据的空间分析与管理。系统