基于大数据和深度学习的实时入侵检测关键技术研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 6次 | 上传用户:zjlsxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业中信息安全很重要,在现代网络信息化大潮下,尤其是其中的入侵检测面临巨大挑战。大数据和人工智能等技术的兴起,一方面有助于信息安全的加固,相反也给信息安全带来非常大的挑战,因为黑客们也可以利用该技术来加强其进攻能力。传统的做法,无论是检测病毒,防范入侵,还是其他类型的攻击,本质上用的是特征标识的方法,把各种各样的发生的入侵的特征集成一个特征库集,当信息进来以后,如果匹配了这个特征库中的某个特征,就判断是入侵。依人工智能角度来看,基于特征标识的入侵检测是一个简单的专家系统,特征库构成知识库,首选通过人工的编程方法把特征写入知识库,然后对输入信息的特征进行匹配,匹配上了就算识别到了入侵。这个专家系统实现简单,但是没有推理能力,不能应对后续的新类型的入侵。现在基于大数据海量特征结合自然语言处理、深度学习等技术,提供了一种解决入侵检测的新思路。本文的主要工作及成果如下:1.提出了基于实时数据计算引擎Spark Streaming的海量日志收集方法:本方法利用改造后的Flume做为日志采集的Agent实现实时海量日志的采集,可根据操作系统提供的资源占用情况做自适应、动态调整采集速度,在保证应用系统正常工作的同时兼顾日志采集的实时性和高效性。使用Spark Streaming作为实时计算引擎,从海量数据中快速提取入侵相关的特征数据,结合调度和管理工具实现稳定的第一手日志的收集和处理,为后面的数据处理做好准备。2.提出了一种基于词向量模型的高阶特征提取方法:本方法选取知名的Word2Vec算法,利用收集到的海量数据作为训练预料,采用短期增量训练,长期全量训练,达到提取入侵检测的词向量模型的目的,该词向量在经过大量训练收敛以后可以将文本转化成词向量,从而为下一步处理做好准备。3.研发了基于深度学习与文本处理结合的入侵检测模型:将标记好的历史数据作为训练集,使用基于NLP(自然语言处理)的文本处理技术,对文本数据做泛化预处理、分词、嵌入式词向量(Word2vec)模型;最后使用Tensor Flow建立循环神经网络进行训练生成入侵检测模型。本文以工程化的设计思路,从需求分析、算法实现、算法优化,算法集成、前台软件设计、后台软件设计、前后台集成等介绍技术的实现过程。
其他文献
目的 研究糖尿病视网膜病变(DR)患者血清视黄醇结合蛋白4(RBP4)和胱抑素C(Cys-C)水平,及其与DR的关系。方法 选取2015年1月—2016年6月南通大学附属海安县人民医院内分泌科、
2010年我国可再生能源步入全面规模化开发利用阶段,水电装机总量突破2亿kW,风电并网运营容量突破3000万kW,太阳能发电市场开始启动,生物质能多元化快速发展。但实现中长期战
以东兴市公安局废旧炮弹销毁为背景,采用爆炸销毁法施工。首先对待销毁的废旧炮弹进行鉴定和预处理,其次合理的选择销毁场地和施工工艺,采用架空的方法避免施工过程中自制炮
2型糖尿病是一个造成重大发病率和死亡率的全球性健康问题。而伴随着的胰岛素抵抗,不仅仅是诸多代谢性疾病的病理基础,也是心脏相关疾病或脑血管疾病的致病因素。众多学者的
通过对南京及其邻近地区漫滩相成因的粘土、粉质粘土、淤泥质粉质粘土、粉质粘土与粉砂互层土、粉土、粉细砂等6类新近沉积土的自振柱试验,详细探讨了围压大小、剪应变水平、
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
基于从北美地区全套引进的加拿大轻型木结构住宅,结合上海地区的地理、气候、环境等特点,通过工程实例,介绍了此种轻型木结构的钉连接方式、外墙通风排水空腔构造、坡屋面安
目的:对比厄贝沙坦片和硝苯地平控释片的降压效果及对高血压患者血压晨峰的影响。方法:高血压患者90例,随机分配为厄贝沙坦片组(A组)和硝苯地平控释片组(B组)各45例,分别给予厄贝沙坦