论文部分内容阅读
在大数据的时代背景下,网络安全得到了前所未有的重视,但是网络安全问题依然十分严重,主要体现为:一方面,网络攻击的种类呈现多样化的特征,安全数据体量呈现爆发式的增长,传统的网络安全分析方法无法满足海量数据分析需求;另一方面,新的攻击模式不断涌现,为了处理这些问题,基于大数据的网络异常行为检测平台是一种很好的解决方案。其核心概念是:结合多种大数据技术解决海量数据的安全实时处理、分析、关联、分类、检索,实现安全可视分析、多源事件数据关联分析、用户行为分析等一系列大数据安全分析功能。通过大数据接入、流式处理、数据挖掘等技术实现高性能、低延迟、高准确性的网络异常行为检测是本平台致力解决的问题。本文分析了大数据检索技术,设计了基于Co-Forest的网络异常行为检测算法,利用ELK架构实现了一个基于弹性搜索的网络流数据分析系统。系统中,网络数据被捕获、特征提取、流式处理后,交由训练好的网络异常行为检测模型进行识别,并向用户展示检测结果。一旦发现异常,将报警提醒安全人员处理,并提供回溯取证和关联分析功能。系统基于ELK架构,分为Web前端与可视化、WebService层、业务逻辑层以及数据存储的四层结构,实现了检索、关联分析和IP分布的功能。Web前段与可视化层的设计是,通过客户端获取用户的查看IP分布请求,后将请求传递给逻辑层。逻辑层是调用相应的接口,将获取的Web层的请求中的检索数据类型的字段请求发送到数据存储平台。数据存储平台按照需求进行检索,获取IP信息、该地区的IP数量以及IP所在地区的Location,并将结果返回到逻辑层。WebService层接受来自逻辑层的数据结果,并将结果返回到客户端。设计了基于Co-Forest的网络异常行为检测算法。使用已标记数据集对分类器进行训练。然后再分类器对未标记的样本进行置信度的判断,并根据高阈值与低阈值对未标记数据集按置信度进行划分,将高置信度集合和低置信度集合加入到已标记数据集中,再对中置信度集合进行置信度判断,直到样本都被划分或者分类器稳定。对DNS数据、HTTP数据、邮件数据、IP五元组数据、HTTP账号数据、邮件账号数据、FTP数据、告警字段这八类数据都进行了数据预处理。对系统进行了包括硬件测试和软件测试的环境测试。还进行了包括搜索功能测试等的功能性测试。最后对系统进行了包括存储能力测试、检测及数据分析性能测试以及异常行为检测性能测试的性能测试。