基于CatBoost模型的异常故障根因定位应用

来源 :兰州大学 | 被引量 : 1次 | 上传用户:zhangnaiyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代网络复杂性不断提升,面对海量非结构化数据,传统运维处理面临智能化和监控可视化的诸多问题。针对研究数据现网告警、工单数量大、故障原因定位困难的痛点,依据现网历史告警和故障定位工单数据,通过机器学习的手段建立故障根因分析模型,提出适应于特定应用场景的智慧网络数据流异常检测算法,快速定位故障原因,从而减少实际排单数量并进行优化策略派单,提升网络运维效率,提升整个运维系统的鲁棒性。本文以业务应用运维系统中异常根因定位分类为研究内容,基于文本数据展开研究,实验部分主要工作如下:1.在特征数据挖掘阶段,提出了一个基于时间序列和基于空间(在实验数据上可以理解为基站ID)的文本序列挖掘框架,对基于时间序列的文本挖掘进行了五个方面的TF-IDF向量化,对基于时间序列的文本挖掘进行了告警方面的word2vec的词向量化;对基于空间序列的文本挖掘进行了基站方面的word2vec的词向量化。从数据本身与数据统计方面提升挖掘模式,充分预测分类。2.利用word2vec做词嵌入式捕捉时间性和空间性序列特征并且依据不同的序列挖掘信息进行了TF-IDF和word2vec相结合,命名为tf-idf word2vec将文本信息在整体与局部信息相结合,有效的解决了两者算法的局限性,并在模型上得以验证。3.建模阶段,基于时间与基于空间提出的序列挖掘对算法CatBoost、SVM、RF做实验对比,CatBoost表现更优。其次基于tf-idf word2vec特征改变对比了CatBoost模型和加权CatBoost模型,模型AUC提升,证明了本文基于时间与基于空间提出的序列挖掘特征对于分类算法的构建在实际文本运维场景下的可行性。最后在基于加权CatBoost,模型在自定义评价指标上获得了更好的分数,实验思想得以验证。
其他文献
2016年,《中国学生发展核心素养》发布。核心素养是学生应具备的适应终身发展和社会发展需要的品格和关键能力。本研究对核心素养及其与幼儿园课程的关系,包括核心素养与幼儿
当今社会经济的飞速发展使得城市化进程显著加快,地下空间也得到越来越充分的开发利用,而基坑作为多高层建筑施工的第一步,其安全性和可靠性不仅关乎地下基础部分,更与整个建
在艺术事业发展下,流行演唱和音乐剧唱法得到人们的广泛关注。在音乐发展行业,音乐剧唱法和流行演唱之间的关系更为主要,在音乐行业需要对其详细研究。因此,在文章中,通过对
猪肉是我国居民最重要的蛋白质来源,生猪养殖则是我国国民经济的基础产业,因此,生猪养殖在很大程度上关系到我国食品的有效供给、农业生态循环、农民持续增收、公共卫生安全
提出一种基于高保真分布式光纤声波传感器的油气管线泄漏在线监测技术,介绍了该型光纤声波传感器的测量原理和技术优势,利用该传感器在模拟的管道泄漏实验场中实现了对输气管
美国对专利侵权以强救济著称,永久禁令作为一种重要的救济方式,是美国专利侵权案中多被用到的救济方式。在颁布永久禁令的适用过程中,出现了在专利诉讼中“一旦侵权即可颁布永久禁令”的“一般规则”的审判思路,这显然违背了衡平法原则,随着美国“专利诱饵公司”及“专利丛林”现象的逐渐增多,美国开始尝试进行专利制度改革,而eBay案是美国专利制度改革过程中的典型案例。美国政府一方面修改了专利法案,另一方面通过判例
当代激进左翼政治思想家斯拉沃热·齐泽克在马克思主义思想发展史中重新挖掘了毛泽东的思想遗产。他认为,毛泽东是继列宁之后给马克思主义发展带来转折性影响的伟大革命
随着科技的迅速发展,高压水射流技术的应用也越来越广泛。但是,前混合磨料水射流切割机磨料量的在线监测问题一直未能很好地解决。本文在分析了当前磨料量检测方法的不足之后
地膜覆盖因增温、保墒、增产等优势而广泛应用于干旱与半干旱地区。大量覆膜研究重点针对旱作农业生育期覆盖,近年来,气候干旱化和土壤干燥化问题与区域旱作农林业快速发展并
英语和汉语是两种不同形态的语言。英语注重语句结构完整,所以运用不同的衔接手段。而汉语少用甚至不用形式连接手段。英汉互译时,连接手段的使用是一个重点。本文以许渊冲教