面向磁盘故障预测异常检测技术研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:pkbaby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
磁盘作为当前云服务、大数据等环境下的主要数据存储设备,其应用范围极其广泛。磁盘故障会影响系统服务,甚至导致数据丢失,对保证数据安全及业务的稳定运行产生严重的冲击。尽管磁盘中采用了 RAID、SMART等防御及预警机制,但现有机制准确率较低,系统的可靠性仍受到严重影响。在数据中心、调度中心等实际运行场景下,磁盘作为一种相对稳定的存储介质,存在故障历史数据较少、型号繁多且数量不一的特点,现有用于构建磁盘故障预测模型的异常检测方法存在以下问题:由于磁盘SMART属性维度较高且存在弱相关属性,导致异常检测模型预测能力下降;针对局部异常、包裹异常或异常数据分布密集等特殊异常情况,现有算法检测准确率较低;大多数磁盘迁移学习算法仅利用单源域数据进行离线迁移,模型迁移的效果受源域与目标域之间相关性的影响较大,而现有多源域迁移学习算法常由于目标域异常样本数量较少无法有效对子模型进行评估并集成健壮模型。针对上述问题,本文开展了面向磁盘故障预测的异常检测技术研究,研究成果对提高磁盘存储系统的可靠性,保障其安全稳定运行具有重要意义。论文主要工作如下:(1)研究了磁盘数据预处理及属性筛选方法。根据磁盘SMART属性数据的特点,在进行相关统计分析及预处理的基础上,针对磁盘属性较多且存在弱相关属性导致模型预测能力下降等问题,提出了一种计算属性隔离度的算法。该算法利用标注数据各属性分别构建最优隔离树,根据故障数据位于隔离树叶子节点深度的不同计算该属性隔离度,深度越深说明该属性正异常数据越难区分。据此对各属性进行隔离度排序,减少弱相关属性对模型预测效果的影响。(2)研究了基于无监督的磁盘故障预测方法。针对现有方法在解决局部异常、包裹异常或异常数据分布密集等情况下检测准确率较低的问题,提出一种基于隔离树回溯近邻数据提取和分布概率相似度度量的异常检测方法。首先,基于隔离树集成思想得到的森林架构,由测试数据所在每棵树的叶子节点回溯到深度阈值的祖先节点,将该节点下所有正常训练数据取出,组成衡量测试数据异常程度的数据集;然后,以测试点与数据集内某点为端点,在各属性维度上分别计算其余数据点出现在此两点之间的概率;最后,计算测试点与数据集内所有点的不相似度得出该测试点的异常值。在公开数据集与合成数据集上与现有典型异常检测算法对比实验,验证了本文所提方法的有效性和先进性。(3)研究了基于多源域迁移与增量学习的磁盘异常检测方法。针对同一厂商不同型号磁盘SMART属性数据分布存在一定交叉的特点,提出了一种基于子模型动态重加权多源域迁移与增量学习的磁盘异常检测算法。该算法包含两个核心组件:多源域迁移组件和增量学习组件。针对目标域少量异常标注样本无法有效评估子模型检测性能的问题,提出了一种基于数据分布相似度及动态指数加权集成的迁移学习算法。首先在超空间中提取各目标域正常数据的近邻数据,然后依据目标域异常数据数量对各子模型采用不同的测试标准,最后根据模型预测能力对其进行指数重加权。在增量学习组件中,提出了一种基于在线自动标注的增量学习算法,自动标注当前时刻滑动窗口弹出的数据,并自动更新模型。通过迁移前后对比、多源域与单源域模型鲁棒性对比及所提算法与现有先进非增量学习方法对比,验证了本文所提方法的有效性和先进性。
其他文献
在信息技术高度发展的今天,计算机与互联网为各行各业带去巨大推动力的同时,不法分子藉由计算机与互联网实施的犯罪行为也日益增多,来自互联网的攻击与来自网络内部的威胁层出不穷。目前现有的异常检测系统往往只强调将算法模型应用于分类预测的过程,较少关注不同数据集与模型间可能存在的适配问题,也较少考虑模型超参数对检测效果带来的影响,此外还缺乏对于异常处理代价的相关考量。针对上述问题,本文首先提出了样本依赖的代
传统的翻译理论将是否“忠实”于原文作为判断翻译好坏的标准,以原文为中心,忽视了译者和译文的重要性,使其长期处于边缘化的地位。直到20世纪70年代“文化转向”的出现,研究
为减轻或消除消费者对电动汽车续航里程的焦虑以及加快充电速率,必须开发先进的动力电池包冷却技术。为此,本文针对江铃集团新能源生产的电动汽车上所应用的三元锂离子动力电池,从多尺度角度构建了冷媒直冷动力电池包热设计模型,并利用其对电池包结构进行设计与优化。在电芯尺度上,本文分别开发了三元锂离子电池电芯一维电化学-热耦合模型和三维电化学-热耦合模型,并分别利用其对电芯放电过程进行数值模拟,发现本文所开发的
经纪业务是国内证券公司最基本的传统业务,股票交易手续费是其主要营业收入组成部分,随着佣金率下调和市场交易活跃度降低,国内证券公司经纪业务利润连年下滑,为了谋求发展与突破,在各个证券公司经纪业务服务差异化难以取得有效突破的前提下,成本控制日益受到更多关注。论文的研究目的就是通过有效的成本控制降低JT证券公司经纪业务成本,达到利润最大化,稳定JT证券公司在证券市场各家证券公司中的龙头地位,同时论文中构
随着手机等移动设备的普及,移动端设备的用户体验越来越受重视。动效可以有效提高移动设备的用户体验,因此设计动效逐渐成为了设计师的必备技能。那么如何保证初级设计师让设计的动效能够准确表达交互信息和交互逻辑,并且让用户容易理解其传达的信息,成为了一个值得研究的课题。叙事是一种传统的交流活动,是相对柔性的传递信息的方式,能够让用户更加容易理解和接受信息。基于这样的优势,叙事学理论被引入到众多学科之中,包括
随着现代科技的飞速发展,海上智能交通已经成为了世界各国科技战略的重要组成部分。而复合材料无人艇作为未来海上智能交通至关重要的一环,被广泛地应用于执行反恐、维和、环境监测、科研勘探及搜救安防等各种军事或非军事任务。复合材料无人艇艇体在执行任务时与钢制船舶发生碰撞的几率很大,而且由于复合材料无人艇体积小、总体结构刚度较弱,一旦发生碰撞事件,后果将会非常严重。近些年来,国内外对船舶耐撞性问题日益关注,对
近年来,国内外广泛开展了对基于车车通信的列控系统(以下简称新型列控系统)的研究,其主要特点有:轨旁设备最少化、通信多模化、车载中心化和资源管理自主化等。新型列控系统与传统列控在系统结构、模块功能等方面有诸多不同;在新型系统带来优势的同时,也产生了资源竞争等问题。因此,为保证新型列控系统功能的正确可靠实现,针对其车载中心化和资源管理自主化的需求,论文以线路资源和相关的资源管理模块为研究对象,提出适用
党的十五大以来,提升行政效能已成为我们党治国理政的重要方略。新一届中共中央出台“八项规定”,反“四风”,全国各级各地政府掀起改进工作作风,提升行政效能的新高潮。随着
水稻黑条矮缩病毒(Rice black-streaked dwarf virus,RBSDV)属于呼肠孤病毒科(Reoviridae)斐济病毒属(Fijivirus),主要由灰飞虱以不经卵方式传播。该病毒可侵染水稻、玉米和
图书情报学科的研究方法对学科发展起促进作用,合理使用研究方法能够进一步推动图书情报学科的发展,同时,在学科研究过程中扮演着重要角色。本论文对我国图书情报硕士学位论文中研究方法的使用情况进行调查研究,运用文献研究法、定性与定量研究法、问卷调查法以及内容分析法对南京大学、黑龙江大学、湘潭大学的图书情报硕士学位论文(2012-2019)中研究方法的使用情况进行分析研究。本文调查了我国图书情报硕士培养教育