论文部分内容阅读
基于摘要的垃圾邮件识别方法是众多垃圾邮件识别方法中十分重要的一种。这类技术通过对比邮件摘要相似性来判定垃圾邮件。然而,现有的识别技术大都采用集中式的摘要管理模式,该模式具有单点失效、可扩展性差等缺陷。分布式的处理方法必然成为未来发展的趋势。
在基于摘要的分布式垃圾邮件处理系统中,如何高效、快捷的发布和查询邮件摘要是研究的重点之一。本文在研究CTPH摘要生成算法和DHT信息发布技术的基础上,利用iDistance方法将高维的CTPH摘要映射成一维的标识符,提出了一种在Chord网络环境中发布和查询CTPH摘要的方法:iCTPH。该算法具有如下三个特点:(1)iCTPH能将相似的CTPH摘要发布到相同或相近的节点上;(2)基于区段检索的查询算法保证仅查询网络中的少数节点即可召回绝大部分相似摘要;(3)iCTPH具有良好的可扩展性和负载均衡性。本文通过仿真实验对iCTPH算法进行验证,实验表明,iCTPH可将500个相似摘要发布到不足5.6%的节点上,仅需查询4%的节点即可召回85%的相似摘要。
在基于iCTPH算法的分布式垃圾邮件过滤系统中,系统可用性也是一个至关重要的问题,节点的加入和离开会造成网络抖动,进而会极大地影响查询准确性。本文在详细分析各种网络抖动类型的基础上,设计了一套数据维护算法保障系统可用性。该算法为每个节点设置两套数据库:MAIN_DB和AUX_DB。前者作为摘要查询和发布的主数据库,后者作为备份数据库。节点在其运行周期内会不断将MAIN_DB中的数据备份到其它节点的AUX_DB,并且将自身的AUX_DB同步到当前管理节点的MAIN_DB。文章通过仿真实验对比了没有采用数据维护算法和采用了该算法两种情况下的系统可用性,并给出了定量分析。实验表明,数据动态维护算法能有效地提高系统可用性,备份节点的数目为1即可使系统可用性从10%上升到90%。