论文部分内容阅读
随着互联网的高速发展,网络应用和网络流量不断增长,给人类社会生活、经济带来便利的同时,也给网络管理和网络安全带来巨大的挑战。通联日志是网络会话产生的日志,能很好地从会话级别描述网络。因此如何为高速、长期的通联日志提供可靠存储,如何基于通联日志准确地对IP社会属性进行标定,对于网络安全、网络管理以及网络规划都起着至关重要的作用。现存的面向通联日志的存储方案没有很好地兼顾接收、存储和检索等方面,使得它们的可移植性受到限制。多个骨干网生成的通联日志每秒钟可以达到千万级别,这使得传统集中式存储方案越来越不能满足需求。而后的一些方案借助分布式框架提供可扩展的存储性能,但是这些方案的存储引擎大多基于传统关系型数据库,存储性能有限。本文对通联日志存储方案进行深入学习,以实现支持高速存储、高速查询的分布式通联日志存储系统。另外,本文对传统IP社会属性标定进行深入研究,发现传统的基于端口和行为特征的IP社会属性标定分辨率较低。本文对通联日志进行详细分析,以实现更加准确的IP社会属性标定。本文的主要的研究内容可以归纳为:(1)提出新型的高速通联日志接收框架:DPIO (Driect Packet I/O)。尽管基于传统的Socket API可以比较简单实现通联日志接收,但是其性能不高。而新型网络驱动netmap,可以很好地解决这个问题,但是netmap需要单独维护网卡驱动,实现和维护都比较困难。本文在它们的基础上提出一种新型的通联日志接收框架,实验结果表明DPIO既能解决Socket API接收速率低的问题,同时也能避免netmap的复杂性。(2)设计并实现支持高速存储和快速检索的分布式通联日志存储系统:DCLStore (A Distributed Connection Log Storage System Supports High-speed storage and Fast Retrieval)。DCLStore能够为通联日志提供高速存储能力、高速检索能力,并且通过存储节点的动态增加提供可扩展的存储空间。实验结果,本系统每秒钟可以接收大约2000万条通联日志,并能很好的处理多个网络节点的日志。在查询时可以提供比相同存储容量下的单点存储系统高40倍的查询响应速度。(3)提出新型的IP指标:IP明暗度。传统的基于端口和行为特征的IP社会属性标定虽然实现简单,但是准确率不高。本文首先对通联日志进行深入观察,提出一种新型的IP指标:IP明暗度。而后,本文对全网IP的指标进行基础测量,测量结果表明本文对通联日志处理的结果基本正确。最后,本文利用开源工具对全网IP的明暗度进行计算,并考察其对IP属性标定的影响。实验结果表明,IP明暗度对基于端口和行为特征的IP社会属性标定的结果都有很大的影响。