论文部分内容阅读
恶意域名指传播蠕虫、病毒和特洛伊木马或是进行诈骗、色情内容传播等不法行为的网站域名。随着Fast-Flux、DGA技术越来越广泛的被黑客采用,网络攻击更加隐蔽,恶意追踪更加困难,安全隐患更加长久。快速准确的识别恶意域名,势在必行。 本文依据Passive DNS域名访问记录,采用机器学习的方法,基于恶意域名的关键特征,研究恶意域名的识别方法,提高了恶意域名识别的精确度。本文主要围绕以下几个方面展开研究工作。 1.本文基于NoSQL数据库TokuMX,设计了一个Passive DNS数据的存储模型。这个存储方案具有能处理海量数据、扩展性强、查询速度快、空间利用率高等特点,便于数据分析且支持反向查询功能。 2.基于随机森林算法建立了恶意域名识别模型,依据18个特征分别从域名的多样性、时间性、增长性、相关性和IP信息五个角度来识别恶意域名,其中10个特征由本文第一次提出。本文提出了“域名池”的概念,指通过IP地址建立域名之间的关联关系,获取多个域名的组行为数据特征,来区分恶意域名和合法域名。使用恶意IP的域名很可能也是恶意的,本文将IP信息引入了识别模型。本文的识别模型还使用了DGA域名识别的思想,将恶意域名和合法域名的字符特征区别引入了模型。 3.实现了恶意域名识别系统,并在北京大学校园网的2014年3、4月份的DNS数据上进行了训练和测试。使用交叉检验和留余检验等实验方法,识别的准确率达到了90%。在与恶意域名识别工具FluxBuster的对比中,本文的识别模型表现出更好的识别性能,更能适应北京大学的网络环境。经人工验证确认,在无标识的数据集上,本方法也识别出了一些恶意域名。