基于Passive DNS的恶意域名识别研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:pettey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
恶意域名指传播蠕虫、病毒和特洛伊木马或是进行诈骗、色情内容传播等不法行为的网站域名。随着Fast-Flux、DGA技术越来越广泛的被黑客采用,网络攻击更加隐蔽,恶意追踪更加困难,安全隐患更加长久。快速准确的识别恶意域名,势在必行。  本文依据Passive DNS域名访问记录,采用机器学习的方法,基于恶意域名的关键特征,研究恶意域名的识别方法,提高了恶意域名识别的精确度。本文主要围绕以下几个方面展开研究工作。  1.本文基于NoSQL数据库TokuMX,设计了一个Passive DNS数据的存储模型。这个存储方案具有能处理海量数据、扩展性强、查询速度快、空间利用率高等特点,便于数据分析且支持反向查询功能。  2.基于随机森林算法建立了恶意域名识别模型,依据18个特征分别从域名的多样性、时间性、增长性、相关性和IP信息五个角度来识别恶意域名,其中10个特征由本文第一次提出。本文提出了“域名池”的概念,指通过IP地址建立域名之间的关联关系,获取多个域名的组行为数据特征,来区分恶意域名和合法域名。使用恶意IP的域名很可能也是恶意的,本文将IP信息引入了识别模型。本文的识别模型还使用了DGA域名识别的思想,将恶意域名和合法域名的字符特征区别引入了模型。  3.实现了恶意域名识别系统,并在北京大学校园网的2014年3、4月份的DNS数据上进行了训练和测试。使用交叉检验和留余检验等实验方法,识别的准确率达到了90%。在与恶意域名识别工具FluxBuster的对比中,本文的识别模型表现出更好的识别性能,更能适应北京大学的网络环境。经人工验证确认,在无标识的数据集上,本方法也识别出了一些恶意域名。
其他文献
数据仓库技术完全是在需求的驱动下产生与发展起来的,比如在应用中需要进行海量信息检索查询和资源共享,实现信息或知识检索查询的快、准、全.为了保证数据的完整性、一致性
本文在阅读了大量有关现代密码学、混沌系统理论的文献基础上,具体对混沌系统在密码学方面的应用进行了研究.论文主要工作包括:●对混沌映射的迭代序列分布特性进行了研究,针
手持设备作为标准办公设备在企业内部得到越来越广泛地应用,然而它为人们的生活工作提供便利的同时,也带来了一系列的安全隐患.大部分安全隐患的根源在于缺乏对手持设备和网
随着WWW技术在全球范围内的迅速发展与普及,网络信息资源日趋丰富,针对远程教育这样一种全新的教育模式:它突破传统教育在教育资源(师资、教材、试验)和教育方法(统一进度、单向传
目前,在电子政务建设过程中,经常面临信息孤岛问题。各业务系统间的互联互通、信息共享、业务协同是电子政务深入发展最迫切需要解决的问题。解决这些问题的关键在于如何在各系
流媒体是指采用流式传输的方式在Internet上播放的媒体格式。随着流媒体服务的普及,人们对流媒体服务本身的服务质量有了更高的要求。当前,影响流媒体系统服务质量的因素很多,包
近些年,由于PC优异的性能价格比,以及其上大量应用软件和开发工具的涌现,PC技术被越来越多的应用在控制器产品中,采用PC平台作为数控硬件平台已经成为一种趋势.同时随着控制
随着Internet技术的兴起,B/S结构成为当今应用软件的首选体系结构。在这种结构下,用户界面完全通过WWW浏览器实现,一部分事务逻辑在前端实现,但是主要事务逻辑在服务器端实现,主要
存储数据的飞速增长,要求企业的信息系统不仅要提供更大的存储容量:同时还要提供更高的存储速度。分级存储是当前存储系统中解决容量和速度问题的重要技术。面对海量数据的存
计算机图形绘制技术是计算机科学的重要研究领域.近十几年来,图形加速硬件特别是普通PC机上的低端图形加速卡有了飞速发展,几乎每六个月处理速度就增加一倍,生成的图像色彩更