论文部分内容阅读
随着移动通信行业高速发展,人们对移动通信的需求已不再只是话音的通信,人们更需要通过手机终端以及无线通信网络随时随地的获取所需信息。在这种背景下,无线互联网应运而生并且快速成长,WAP网站如雨后春笋般涌现,人们可以随时随地通过手机访问这些WAP网站获取相关信息。然而人们在享受WAP上网带来的便利的同时,也受到了WAP网站上不良信息的困扰,WAP网站充斥着的大量的不良信息不但干扰了人们正常信息的获取,同时也给手机用户带来扣费陷阱,造成用户利益损失,而这些不良信息更是直接的侵蚀了青少年的思想和世界观、价值观。针对无线互联网的不良信息过滤迫在眉睫。然而目前对于不良信息过滤的研究和应用主要还是集中在传统互联网上,而对无线互联网信息过滤的研究和应用则很少。另一方面,目前无线互联网的访问途径比较单一,接入网络也在移动通信运营商的监控和管理之下,所以从实际应用角度讲,移动运营商在其网络中建设不良信息过滤系统是比较有效和容易实现的。为此,本文针对无线互联网不良信息过滤该课题进行研究。结合移动运营商的实际网络结构,设计了无线互联网不良信息过滤系统的整体架构和在网络中的部署方案。同时研究了文本过滤的相关模型和理论,选择适合于无线互联网不良信息过滤系统的文本分类算法,并进行一定的改进,提出了基于反馈学习的类中心向量分类算法,实验表明,反馈学习确实提高了分类算法的性能。本文还提出并设计了用于主动发现不良信息网站的WAP网络爬虫系统,作为不良信息过滤系统的补充,主动抓取和分析WAP网页内容,识别不良WAP网站。最后本文对不良信息过滤系统以及WAP网络爬虫系统实现涉及到的关键技术进行了详细的分析和讨论,同时也开发了原型系统并进行实验测试。