监控报警优化体会

个人体会，希望能帮助大家~。
报警 + 消息通道 + 自愈处理，优化监控报警
1、报警类，可以分为灰色报警、蓝色报警（重要）、红色报警（高危）；如使用zabbix；
2、每类报警单独一个报警群，黄色、15分钟必须有SRE回复，红色必须10分钟内回复；后台埋点使用自动化标记统计报警与回复时间差，超期没有人员回复跟进，直接自动电话通知相关人员，在自动电话后5分钟未回复处理中，那么直接后台记录超时；每日、周统计按产品线、或人员统计总报警数、及超时数、进行考核。可以使用某钉的api接口二次开发实现用户是否恢复记录，及自动电话通知。
3、有些异常类，报警后 + 自愈自动处理。或巡检类 + 自愈自动处理。
所有报警类消息，及回复记录全部自动搜集入库，如回复信息，进行分类，如：更新，cpu 、内存、故障、系统bug等，在一个报警时候，通过消息中心发到相关群里，然后后面加上最近 1天、3 天、7天出现次数；及之前此类报警的人员回复的信息数据展示，如之前人员回复更新 60%，内存30%；推荐最高值操作。
4、报警类的回复统计，进行分类后查看每日、周的排名情况，若是更新类报警较多，那么直接在每次更新时候，通过屏蔽消息通道接口屏蔽此类更新相关的报警（屏蔽5分钟、10分钟自定），这样更新时候就不报警到相关报警群里了，但是监控工具如zabbix还要继续展示出来。减少了更新导致的报警；
5、因为自愈、自动处理，给隐瞒了部分问题。
”如果一个机器经常出现 CPU_IDLE 报警，那么我们可以将现在的监控策略进行调整，比如说，以前 5min 内出现 5 次就报警，现在可以调整为 10min 内出现 20 次再报警，或者直接删除这个报警策略，或者将报警短信调整为报警邮件，或者各种类似的手段。但这个机器为什么出现 CPU_IDLE 报警，却并没有人去关注，更别提解决了“
每日、周统计自愈处理的名称、次数；按人员、部门业务线进行维度统计，某个自愈较多的，就要优化程序或其他问题，来减少自愈次数；某个机器突然出现同类报警数增多，有可能就有问题的预兆，报警类较多，直接有报警仪表盘展示各类报警曲线，通过曲线也发现问题。~~ 后期报警少了后，再返回来跟进为啥能引起自愈的问题，如磁盘报警一直报警就自动处理，那么某个时间自愈较多了是否代码debug日志了或者有异常了导致日志多，导致频繁清理？

鱼峰网站制作公司哪家好，找创新互联建站！从网页设计、网站建设、微信开发、APP开发、成都响应式网站建设等网站项目制作，到程序开发，运营维护。创新互联建站从2013年成立到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选创新互联建站。

参考：
https://www.infoq.cn/article/1AofGj2SvqrjW3BKwXlN?utm_source=infoq&utm_medium=article&utm_campaign=newinfoq&utm_content=language2019&utm_term=701
摆脱无效报警？十年运维监控报警优化经验总结

分享题目：监控报警优化体会
分享路径：http://scjbc.cn/article/geddch.html

监控报警优化体会

其他资讯