CTPH摘要在Chord网络中的发布和查询

来源 :南开大学 | 被引量 : 0次 | 上传用户:stillzhl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于摘要的垃圾邮件识别方法是众多垃圾邮件识别方法中十分重要的一种。这类技术通过对比邮件摘要相似性来判定垃圾邮件。然而,现有的识别技术大都采用集中式的摘要管理模式,该模式具有单点失效、可扩展性差等缺陷。分布式的处理方法必然成为未来发展的趋势。   在基于摘要的分布式垃圾邮件处理系统中,如何高效、快捷的发布和查询邮件摘要是研究的重点之一。本文在研究CTPH摘要生成算法和DHT信息发布技术的基础上,利用iDistance方法将高维的CTPH摘要映射成一维的标识符,提出了一种在Chord网络环境中发布和查询CTPH摘要的方法:iCTPH。该算法具有如下三个特点:(1)iCTPH能将相似的CTPH摘要发布到相同或相近的节点上;(2)基于区段检索的查询算法保证仅查询网络中的少数节点即可召回绝大部分相似摘要;(3)iCTPH具有良好的可扩展性和负载均衡性。本文通过仿真实验对iCTPH算法进行验证,实验表明,iCTPH可将500个相似摘要发布到不足5.6%的节点上,仅需查询4%的节点即可召回85%的相似摘要。   在基于iCTPH算法的分布式垃圾邮件过滤系统中,系统可用性也是一个至关重要的问题,节点的加入和离开会造成网络抖动,进而会极大地影响查询准确性。本文在详细分析各种网络抖动类型的基础上,设计了一套数据维护算法保障系统可用性。该算法为每个节点设置两套数据库:MAIN_DB和AUX_DB。前者作为摘要查询和发布的主数据库,后者作为备份数据库。节点在其运行周期内会不断将MAIN_DB中的数据备份到其它节点的AUX_DB,并且将自身的AUX_DB同步到当前管理节点的MAIN_DB。文章通过仿真实验对比了没有采用数据维护算法和采用了该算法两种情况下的系统可用性,并给出了定量分析。实验表明,数据动态维护算法能有效地提高系统可用性,备份节点的数目为1即可使系统可用性从10%上升到90%。
其他文献
基于智能移动设备的3D数字媒体技术及游戏软件设计有较高的技术复杂度和广阔的产业发展前景,其中3D赛车游戏因涉及到完整的图形渲染技术、物理仿真技术和游戏人工智能技术,是该
随着WWW的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速增加。高速增长的Deep Web信息已经成为人们获取信息的一个重要来源。但由于其本身异构性和动态性的
学位
G蛋白偶联受体(GPCR)是一种重要的信号分子受体,在生命活动中起着重要作用,是大约50%所有现代药物的作用目标。随着计算机计算能力的大大增强及人们对生理活性分子与生物分子相
对于大多数的物体,我们都可以通过纹理来描述其表面错综复杂的细节。纹理合成技术从开始发展到现在一直受到众多研究学者的关注,在许多领域都发挥着巨大的作用,是当前图像处
随着图形学以及三维计算机虚拟图像技术的迅速发展,纹理合成技术已成为当今计算机图形学领域的热点之一,并在现实化虚拟仿真、机器视觉处理等领域得到应用。纹理能够展示出细
随着信息技术尤其是网络技术的发展,越来越多的应用领域,如网络监控、垃圾邮件分类、传感器网络等,需要对其以每天数以百万Gbit增长的流数据进行实时处理。由于流数据经常呈现高
超立方体以其正则性、对称性、强层次结构和高容错性等优越性质成为最具吸引力的互连网络之一,但它并不是各方面性质都最好的互连网络。迄今为止,文献中提出了超立方体的多种变
由于加工一个MEMS器件的周期较长,经费较高,因此,在设计之初都要进行仿真来验证所设计的结构是否符合实际需求。为此,本组在之前开发了虚拟工艺软件,旨在通过仿真得到器件的三维结
P2P技术是目前计算机网络领域的一个研究热点,它的发展将影响人们获取信息的方式和整个计算机网络的概念。P2P充分利用网络节点的自身资源,实现整个网络资源的高效共享。副本