论文部分内容阅读
百度业务监控闭环系统分为问题类型设计与问题管理中心两个部分构成,主要的目的是用来解决当前互联网公司缺乏完整监控体系的顽疾,目前的监控平台现状多为零散的错误报警功能。百度业务监控闭环系统采用以监控问题为对象的出发点设计整体系统,通过对问题的分类分析,将监控问题归类为不同的解决路径中,进而执行针对相应类别的问题定位,问题自动修复等功能。最终达到最大可能的减少人工排查和修复问题的时间,并且将历史问题进行分类收集,进行统计预测风险方向。百度业务监控闭环系统是一套完整的流程,包含问题监控,问题收集,问题分析,问题分类,问题定位,自动修复,邮件通知相关责任人。线上的问题监控由功能可用,数据准确,服务稳定,日志监控和用户以邮件、讨论群等形式组成。搭建问题管理中心平台,将问题收集、分析、分类整合到平台中,平台提供出一套通用的接入和输出的接口,同时使用者也可以自定义服务,只要满足接口规范的要求便可以配置到服务列表中,便于不同的服务可以接入平台中,既方便了管理,又便于根据历史数据统计出高发率的问题。根据不同的需求可以在分析和分类的配置栏中注册自己写的服务,达到复杂逻辑问题分析,定位,自动修复的功能。整个系统使用SpringMVC, Mybatis技术实现结合MySQL数据库,在IntelliJ idea集成开发环境上搭建而成。将服务部署在linux服务器上,配置4台slave机器用来处理接入到问题管理中心平台中的任务流,4台slave机器的调度由主服务器负责。本人参与了系统需求分析、设计和实现的全过程。独立实现了问题管理中心平台从问题获取到问题分类,分析流程的搭建,实现了问题来源接口统一,并且问题稳定接入到问题管理中心,参与任务接口处理问题的优化。整体的闭环系统设计流程已经开发完成并且上线使用,该系统为业内比较成熟,走在领先地位的设计方案。不仅支撑着百度质量部的问题管理业务处理流程,更为同行业有需要搭建问题管理平台的企业提供了参考和借鉴的模版。