基于异常检测模型的日志开销优化方法研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:zhj8028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常检测在现代大型分布式系统的管理中作用显著,记录系统运行时信息的日志被广泛用于异常检测中。然而在实际大规模的软件开发生产中,密集的日志输出会产生大量对异常检测无用的冗余日志,不利于从中挖掘有用信息,并且随着如今系统规模越来越庞大,日志记录的开销问题不容忽视。目前解决大规模日志开销相关问题的方法效率低下,有效性差。本文针对该问题提出一种对日志记录开销进行优化的方法,利用设计的基于深度学习的异常检测模型以及两阶段过滤机制,在系统运行过程中根据日志对异常检测的有用度来决定是否被输出,能够在保证日志有效性的同时缓解日志记录的资源开销问题。论文主要的工作和贡献包括:(1)在分析具体实现的六种基于经典机器学习异常检测模型的实验评估基础上,为进一步提升系统性能,设计并实现了基于深度学习的异常检测模型。使用LSTM构建深度神经网络,通过循环神经网络根据最近出现的日志事件类型对下一个事件类型做出预测,以用于在线地对流式系统日志进行异常检测,并且为适应因系统变化而产生的新日志模式,设计了在线增量更新模型策略以提高模型性能。实验结果表明,基于深度学习的异常检测模型整体性能良好且在线更新策略有效。(2)基于目前系统软件开发中日志实践经验分析,针对大规模分布式系统中日志输出带来的资源开销问题,本文提出了基于异常检测模型的日志开销优化方法,并实现了其原型系统Opt Log,主要包括三大功能模块:日志解析模块、异常检测模型构建模块、两阶段过滤机制模块。日志解析模块实现在线将自由文本格式的日志解析为结构化日志数据的功能,以便后续分析处理;异常检测模型构建模块实现特征提取、模型训练、计算有用度分值功能;两阶段过滤机制模块设计了本地过滤、全局过滤和动态阈值调整算法,实现将日志按照有用程度进行有选择性保存功能以达到日志开销优化目的。(3)在详尽完整的实验评估基础上分析日志开销优化系统的性能,实验结果表明:基于树结构的日志解析方法效率高且性能稳定,能够用于在线处理实时流式日志数据;基于深度学习的异常检测模型效果良好,并且能够显著提升整体日志开销优化系统的性能,在保证日志效用的同时日志吞吐量平均降低了90%;总体上,基于异常检测模型的日志开销优化系统Opt Log能够在保证日志效用的同时有效降低日志记录带来的资源开销代价。
其他文献
皮肤鳞状细胞癌(cutaneous Squamous Cell Carcinoma,cSCC)作为皮肤癌中的第二大常见恶性肿瘤,每年全球新增50万患病人数,cSCC如果不及时进行治疗,将出现转移并导致病人死亡;角化棘皮瘤(Keratoacanthoma,KA)是一种良性的皮肤肿瘤,不需治疗会自发性地痊愈。虽然两种肿瘤的预后截然不同,但是KA和cSCC在临床特征和组织病理学上高度相似,常常难以区分,
地震通常是呈序列式发生的,主震过后往往伴随着余震的发生,余震会对结构造成进一步的破坏,因此余震对结构造成的影响不能忽略。自复位节点与传统刚接节点相比具有震后残余变形小、损伤可控的优点,但是目前对于自复位节点的抗震性能研究基本上只考虑了单一主震作用,自复位节点的抗震性能在主余震序列的作用下会发生怎样的变化,有哪些因素会影响其在余震中的抗震表现等问题值得去深入研究。本文的研究对象为顶底角钢连接式自复位
停车问题是当今世界正在努力解决的交通问题之一。随着汽车的大规模生产,交通拥堵早已成为一个普遍存在的问题,伴随着城市的日益拥挤和中心化,停车难已成为一个严重的社会问题,它不仅会对城市居民的生活质量产生负面影响,还会导致交通拥堵,环境污染等其他社会问题。乌兰巴托是21世纪初开始出现停车问题的现代化城市之一,乌兰巴托之所以出现停车问题,一方面是因为在城市规划的早期阶段考虑不足,另一方面是缺乏有效的停车管
近几年来,国家对于房地产管控日益收紧,各项调控政策越发严格、完善且出台实施频繁,住宅销售市场竞争也是日益激烈,但是各家房企每年度的住宅销售规模仍是逐年递增。产生上述现象的一个重要原因是各家房企在住宅项目开发过程中实施了高周转运营模式。高周转运营模式是当前社会发展过程中产生的一种以住宅销售为产品的新型管理实用工具,它是房地产企业实现高效发展的重要实践方法。然而,目前关于高周转形成的原因及其影响等方面
心血管疾病是目前全球人口死亡的第一大病因,且死亡率正在不断上升。其中心肌缺血缺氧导致的缺血性心脏病是心肌损伤中最常见和最主要的原因,心肌缺血如果不及时得到治疗,会通过胞内自由基和钙离子超载等诱发细胞凋亡。氧化铁纳米颗粒因其良好的生物相容性而在生物医学领域得到了广泛的应用,如医学诊断剂,药物载体,肿瘤热疗等。已有的研究报道显示氧化铁纳米颗粒能够在动物和细胞水平上发挥抗心肌缺血损伤的作用。在本文的研究
随着信息化水平的提高,热工过程中运行数据的获取和储存越来越方便,而自联想神经网络作为一种非线性神经网络建模方法已经成为研究热点,在热工过程中得到广泛应用。本文针对自联想神经网络建模、故障诊断以及迁移方法进行研究,研究内容如下:针对热工过程建模受样本分布影响较大的问题,提出了一种高质量样本提取方法,该方法以主成分为依据,计算出系统级稳态因子,并以此作为稳态权重进行样本约简,进一步根据约简后样本的权重
拥有128位地址空间的下一代互联网协议IPv6有效解决IPv4地址不足问题的同时,也给IPv6网络地址的管理与分配带来了巨大挑战。默认64位的IPv6地址空间中可使用IPv6网络地址数量巨大但同一时刻活跃IPv6地址极少,此外,IPv6出于不同目的也设计多种地址配置方式。利用传统地址扫描工具无法在可接受的时间内对目标IPv6地址空间开展有效扫描探测工作,现有研究方向主要包括持久化可公开获取IPv6
HEVC编码标准是ITU-TVCEG在H.264编码标准后所制定的视频编码标准,相较于H.264,HEVC标准提升了视频的压缩效率以及错误恢复能力,在有限的传输带宽下HEVC能够传输更高质量的视频,但其编码复杂度的提升,带来了视频编解码效率低下的问题。而且媒体解码是比较消耗资源的,尤其是软解码对处理器和内存要求更高,而国标视频系统要求软解码媒体数据,这就需要对性能提出一定要求。针对这些问题,设计并
当代飞行事故发生的主要原因是人为出错,检测飞行任务过程中的疲劳并采取措施,能够有效降低人为出错、降低事故率。疲劳的形成机制以及现有研究中对疲劳的定义方式多样且复杂,目前用来评价疲劳程度的方法包括生理指标检测、行为观察和主观问卷评价等。在本研究中,将执行特定任务过程中遭受任务负荷和各种环境因素影响所产生和积累的综合性疲劳现象定义为“工作疲劳”。本文结合仿真飞行任务和眼动评价指标,旨在探索适用于飞行状
冠脉支架植入术是冠心病的主要治疗方法,通过将压握的冠脉支架植入病变血管,随后扩张支架撑开狭窄血管,来恢复血液流通。目前,新一代的生物可降解聚合物支架力求解决金属支架永久植入引起的并发症等问题,但其力学性能不足,且支架壁厚较大增加再狭窄的风险。由于支架植入时的压握扩张是影响支架服役时力学性能的重要因素,因此,本文利用数值仿真与实验结合的方式,研究生物可降解薄壁聚合物支架压握扩张过程的力学行为,为研制