流数据监控关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:apworld
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着信息技术的发展,流数据这一实时、连续、无限的数据类型出现在人们生活的各个领域中。流数据的主要特点是:1)数据量大、数据产生速度快;2)短暂易逝、快速变化;3)数据重要性随时间而下降。系统监控应用作为确保大型分布式计算机系统运行的重要模块,持续不断地接收着海量监控信息,这些信息具有流数据的上述特点。如何保证系统监控应用能有效处理这些数据,及时发现系统异常情况,预测可能出现的异常并提前采取措施,是一个具有学术和现实双重意义的研究方向。  本文以分布式系统监控为背景,从流数据处理的角度,针对系统监控的特点和当前监控数据处理存在的挑战,研究了提高流数据监控分析处理能力的几个关键问题:  (1)每个时刻都有新的监控数据到达,监控应用需要处理的数据规模十分巨大。面对有限的计算资源与巨大的数据量之间的矛盾,如何选择需要监控的对象至关重要;  (2)在流数据监控中,数据变化迅速,因此监控模型需要对其中出现的异常进行及时检测和快速高效响应,并随时更新模型以应对数据的变化;  (3)在检测异常和学习异常模式的基础上,流数据监控模型需要通过对系统运行指标的预测,提前推断异常发生的概率。如何对系统异常进行准确高效的预测,在需要确保连续正常运行的分布式系统中,也是一个重要的问题。  本文主要围绕以上三点内容进行研究,即流数据中的特征选择,异常检测和异常预测。  流数据特征选择:本文提出了一种适用于流数据监控的改进信息值特征提取算法,针对流数据监控中监控特征过多、新的特征会不断进入的问题,使用信息值(Information-value)算法来进行特征提取。该算法是一种基于阈值判断每个特征对于最终异常分类重要性的方法。在流数据环境下,特征代表的数据不是固定的,因此特征的重要性也会有所改变。传统的特征选择方法在这种情况下需要反复计算所有特征的重要性而后对其进行排序。本文提出的改进后的信息值算法,在保留了原信息值算法通过阈值判断特征的基础上,做出了两点改进:1)考虑了各特征之间的相关性,去除相互冗余的特征;2)使用相关性向量来保存特征之间的冗余度,在流数据监控中仅需对增量数据而非全部数据进行计算。  流数据异常检测:当前的大规模系统通常采用分布式、层次化的监控架构。监控节点部署在每个工作节点上,中心管理节点收集监控节点的数据并汇总后进行分析和管理。随着节点数目的增多,通讯开销会逐渐增大,中心节点将会成为数据处理的瓶颈。  本文考虑了工作节点的时间相似特性,提出了基于最窄平行线的流数据压缩算法NPLA,并在此基础上利用带有权重的集成分类模型来对系统异常进行检测。NPLA算法将监控到的流数据近似成一些线段,在中心节点和工作节点上都记录流数据的近似信息。当工作节点新到达的数据与近似结果之间的误差小于阈值时,监控节点不向管理节点更新监控数据。反之,当新到达的数据与近似结果之间的误差大于阈值时,监控节点向管理节点更新监控数据。这样一来监控数据更新的频率大大降低。  在精简监控数据的基础上,中心管理节点通过聚合集成分类模型进行异常检侧。利用缓存数据块并使用不同的算法来训练分类器,避免了数据变化和错误数据对异常检测精度的影响。  流数据异常预测:针对传统离散时间马尔可夫使用粗粒度状态边界的缺陷,状态周围波动的数据真实值与预测值相差较大。证据马尔可夫算法通过定义模糊的状态边界来解决了这一缺陷。本文在证据马尔可夫算法的基础上提出了适用于流数据场景的置信马尔可夫预测算法。该算法通过使用基于流数据的聚类算法来动态地产生和维护马尔可夫转移矩阵,因此只需储存每一个聚类的均值,而并不需要像证据马尔可夫法那样储存所有的数据。每当有新数据到来的时候,该数据或是直接落入现有的聚类中,或是产生一个新的聚类并导致原有的两个聚类合并。这一算法解决了传统的马尔可夫算法中边界观测值扰动的问题,与证据马尔可夫法相比大大减少了计算量并节约了时间,在动态复杂的流数据环境下更为可行。
其他文献
随着云计算的不断发展,云计算中的任务调度问题作为云计算中的一个至关重要的方面,也得到了广泛的关注与发展。然而,现有的云任务调度研究中仍存在一些问题,比如调度算法的收
测试生成在软件测试过程中起到很重要的作用,现有的生成测试例的方法大多依靠测试人员手工进行,不仅生成效率低下,生成的测试例在可用性方面也不尽如人意。着色Petri网(Color
随着服务计算和云计算技术的发展,软件即服务已成为开放环境下主流的应用提供模式。量大面广、推陈出新的服务,一方面为利用服务组合技术提供增值服务和应用的敏捷开发提供了
近年来,随着3D技术的发展,大量的三维场景出现在游戏、教育、建筑设计、广告等领域。然而,传统的三维场景制作工具需要用户在数据库中选择合适的3D模型,然后通过繁琐的三维场景操
随着3D技术的普及,三维数据的获取技术日渐受到人们的重视,在计算机视觉领域内,基于视频序列的深度恢复技术也逐渐成为研究的热点。虽然,针对动态场景,也有很多多目深度恢复技术相
自抗扰控制器(以下简称ADRC)在经典PID控制基础上,进行了改进,通过扩张状态观测器(以下简称ESO)把系统的所有不确定因素都归结到系统的总扰动而给予估计和补偿。这使得ADRC控制过程较简单,且能有效地抑制开关磁阻电机的转矩脉动,其缺点是控制参数较多。开关磁阻电机结构简单,调速范围宽,如何减少其振动和噪声是目前的研究热点。本文设计的开关磁阻电机(以下简称SR电机或SRM)控制系统,采用自抗扰控制
随着城市化进程的推进,城市交通拥堵已成为日益严重的问题。交通仿真技术是分析交通问题的重要途径之一。通过交通仿真,可以对交通规划、交通管控方案进行评估,尽早发现设计
随着信息采集和处理技术、无线通信技术、传感器技术等的不断发展,无线传感网络在信息获取能力和便于布置等方面表现出明显的优势,近年来无线传感网络在生活、工业制造、军事、
牙科计算机辅助设计系统即牙科CAD系统,是牙科技工工艺、计算机视觉与图形学、精密加工等多学科结合的前沿领域。牙科CAD系统作为一类基于形状的计算机辅助产品设计系统涉及形
随着油气田的深入勘探和开发,正确识别断层的空间分布位置显得尤为重要。三维相干体技术的应用在地震断层解释中发挥了前所未有的重要作用。但是当地下岩层存在大倾角、地层