针对大规模URL关键字的多模匹配算法的性能优化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chengmoshijing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串匹配算法一直是计算机科学的研究热点,尤其是信息时代数据爆炸式的增长对字符串匹配算法的性能提出了更高的要求。在信息安全领域中,关键字规模大,实时性要求高、匹配数据复杂多变使得大规模URL关键字的多模匹配算法中巨大的内存消耗成为当今入侵检测等信息安全系统的性能瓶颈。本文研究了多种精确多模匹配算法,总结并分析各算法的优缺点。深入分析了大规模URL关键字的长度特征和匹配需求特征,总结出URL关键字中,长度较长的URL关键字较多,短关键字较少,且具有与表达式匹配需求的关键字比例较少的特点。提出针对大规模URL关键字匹配的性能优化算法PMUC(Multi-pattern Matching Algorithm for URL Based on Classification),该算法结合AC算法和Wu-Mamber算法的优势,对URL关键字进行分类匹配,达到性能优化的目的。对经典的AC算法和Wu-Mamber算法均进行了改进,将长度较短且具有与表达式匹配需求的关键字使用AC算法的改进算法GFAM进行匹配,其余关键字使用Wu-Mamber算法的改进算法WMS进行匹配。本文实现了基于PMUC算法进行性能优化后的URL关键字多模匹配模块,并加入到可扩展的入侵监测系统进行性能测试。离线测试首先测试优化后的匹配算法的正确性,在验证算法正确性的基础上给出了优化后的匹配模块性能与原匹配模块性能的对比结果,同时仔细调整了分类参数:分类长度m和自动机深度D,测试了调整参数对算法的性能影响,给出基于14万条配置的参数经验值。在线测试使用真实的网络动态数据,认为算法针对大规模URL关键字匹配具有实际应用价值。实验结果表明使用PMUC算法对匹配模块进行性能优化后,内存可压缩为未优化前的5%以内,同时针对大规模URL关键字的初始化时间有明显的缩短。
其他文献
随着互联网技术的迅猛发展,移动终端作为载体,智能手机、平板电脑等移动通信无线设备的普及,使得移动延迟容忍网络(Mobile Delay Tolerant Network,简称MDTN)成为目前无线传
我国经济正处于飞速发展阶段,汽车量增多与道路的慢速建设间的矛盾愈加突出,人们对交通拥挤、道路堵塞等状况感觉明显,这些状况制约了我国经济的可持续发展,因此交通管理部门
气象数据的可视化是可视化技术应用的一个重要方向。本文以时变飓风体数据为研究重点,开展气象体数据的可视化技术研究。飓风本身是一个涉及因素众多,且随时间推进不断演化的气
随着经济的不断发展,汽车保有量的不断增加,交通安全状况日趋恶化,因而行车安全问题越来越为人们所关注,而该问题中最重要的主体就是行人。如何在日趋频繁的交通环境中有效地
随着热带农业生产的迅速发展,热带农产品物流作为农业价值实现的核心环节,已成为人们关注的重点。物流信息是热带农产品物流的中枢神经,它伴随着热带农产品物流活动的发生而
软件测试是软件开发过程的重要组成部分,是软件质量保证的重要手段。测试用例是软件测试最核心的内容之一,测试用例的数量和质量很大程度上决定了软件质量的好坏。近年来,基于统
排课任务在学校教务管理工作中尤为重要,甚至相当复杂棘手。如何根据所要开设的课程,遵守一定约束条件,充分有效地利用有限的教师队伍和学校教学资源,按照时间、空间不冲突原
虚拟作物以作物器官、个体和群体的形态结构为研究对象,在计算机上以可视化方式模拟作物在三维空间中的形态结构变化规律及生长发育过程,是对作物生长模拟的进一步深化和拓展
近年来,随着生物信息技术的高速发展,脑电波及信号处理已成为脑科学和神经信息学的重要研究方向。脑电波作为一种微弱的生物电信号,经过脑电设备的采集,如何从携带噪声的脑电
近年来,随着计算机视觉的发展,人脸识别技术成为模式识别领域非常热门的一个研究课题。人脸是人类非常重要的生物学特征之一,人脸中包含了很多重要的信息,例如身份、性别、年