网络垃圾信息检测与过滤技术

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:obzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日益泛滥的网络垃圾信息不仅为人们的工作和生活带来困扰,也为社会经济带来巨大损失,而如何有效检测和过滤垃圾信息是研究人员面临的一个紧迫问题。基于内容的垃圾信息过滤是目前被人们投入研究最多和应用最广泛的一类方法。然而,被越来越普遍采用的、不断更新的垃圾信息伪装技术却正严重影响着这类方法的有效性。垃圾信息的伪装是指通过对信息内容的插入、删除、替换等操作,并借助于各种编码技巧,在不影响收件人对信息内容阅读和理解的同时,达到隐藏垃圾信息的敏感特征或干扰过滤器的特征提取过程的技术。为此,人们在研究提高已有垃圾信息检测技术的同时,也开始探索新的、针对垃圾信息伪装的垃圾信息识别手段和过滤方法。 模糊指纹是针对基于校验和检测技术在随机噪声攻击时的脆弱性而提出的。模糊指纹的特点是指纹的变化与信息内容的变化相关,当内容变化很小时,指纹的变化也很小。模糊指纹避免了校验和方法在噪声攻击上的脆弱性,但同时也带来了更大的计算开销。另外,对指纹中的全部特征不加区分的同等对待不可避免的导致了较高的误过滤率。基于统计压缩的检测方法是近年来垃圾信息过滤技术中的研究热点之一。与传统基于内容的检测方法不同的是,这种方法根据文档中符号序列的分布特征实现对垃圾信息的识别,因而避免了传统方法中因特征选取不当而导致的判别错误。然而这类方法过高的资源需求,特别是在存储空间上的需求,限制了其应用范围。协同垃圾信息过滤是一种应对垃圾信息大规模散发的有效方法,但这类方法目前所使用的协同过滤模型功能上还比较单一。典型的协同过滤系统或者要求用户自己设定过滤阈值和规则,或者不考虑用户对信息的多样化需求,把某些用户对信息的判别结果不加区分地适用给其它用户。 总之,目前的垃圾信息发展形势及技术现状表明,任何一种单一的过滤技术都不可能彻底解决垃圾信息泛滥问题,垃圾信息问题的解决必须综合使用多种技术,充分挖掘垃圾信息的不同表示层次上的特征,并在多样化的网络体系结构上实现。 基于上述事实,本文主要完成了以下工作: 1.详细描述了使用指纹向量进行垃圾信息检测的原理、实现方法和误过滤处理技术,通过使用Bloom Filter解决了大规模垃圾信息指纹向量的存储问题。 2.提出了使用基于隐Dirichlet分配模型提取信息指纹向量中的隐主题,并将信息的主导主题作为最大熵模型特征的垃圾信息协同过滤技术,提高了协同过滤中的信息类别判别精度。同时,提出了对P2P模式下协同垃圾信息过滤中的用户兴趣多样化问题的解决方案。 3.针对目前基于统计压缩技术对资源需求过大的问题,提出了利用文档符号序列中上下文的Zip盼布特征修剪部分匹配预测模型中状态树的技术,扩大了这一方法的适用范围。 4.针对当前垃圾信息中普遍采用的特征隐藏手段,提出了基于条件马尔科夫域的垃圾信息特征复原技术。该技术基于序列学习原理,可以有效应对多种垃圾信息变形,提高传统垃圾信息过滤器的精度。 5.通过使用信息的本体表示模型,实现了垃圾信息在语义层上的过滤;介绍了相应的基于文本挖掘的本体学习技术以及信息内容与本体概念的关联模型。上述工作中除最大熵协同过滤模型外,所提出的其它方法和技术全部在TREC 2006、SEWM 2007等标准垃圾邮件数据集上进行了验证,并与已有方法进行了比较评价。而对于基于隐主题特征的最大熵协同过滤方法和用户兴趣多样性处理问题,由于目前没有标准的可供测试数据集,在相关实验中使用了来自实际邮件服务器的数据。 本文的主要创新点包括: 1.将指纹技术与机器学习模型结合起来,一方面实现了使用紧凑数据结构表示信息和提高查询速度的目的,另一方面降低了仅依靠指纹检测所导致的垃圾信息的误过滤率。 2.在垃圾信息的协同过滤中使用了多种类型的特征约束,特别是将信息的隐主题特征引入最大熵模型,较好的解决了传统协同信息过滤中的数据稀疏性问题。 3.将基于概率图模型的序列学习方法应用于垃圾信息的特征复原,弥补了传统方法在应对垃圾信息变种上健壮性差的缺陷。 4.所提出的基于本体的垃圾信息过滤方法在一定程度上避免了现有垃圾信息过滤技术中的冷启动问题,并为在语义网框架下的用户间的垃圾信息特征知识共享提供了自然的表示方式。
其他文献
随着视频处理、电子技术及其在空间应用的高速发展,空间科学实验对视频的需求越来越大,其特殊的空间环境要求稳定可靠的硬件平台及高效的压缩算法。目前的视频应用平台是针对电
随着ROP防御技术的日益发展,ROP攻击技术趋于复杂化,gadget搜索空间也随之越来越小。因此,当前ROP payload构造的主要挑战是,在有限的空间里收集到更多可利用的gadget,成功实
演化计算是计算机模拟大自然的演化过程,特别是生物的进化过程,来求解复杂问题的一类计算模型。由于演化计算具有自组织、自学习、自适应的智能特征和简单、通用、鲁棒性强、适
IP组播技术是一点对多点或多点对多点的传输技术,它允许一台或多台主机(组播源)发送一份数据,由多台主机同时接收。组播技术是减轻服务器负载、节省网络带宽的有效方法之一。IP