生产故障处理 SOP 分享

LarsCheng at 
一、背景在日常的需求变更和技术变更中,测试用例覆盖率很难达到 100%,再加上变更过程中的各种原因,可能会导致生产环境出现故障。针对生产故障处理,每位开发同学可能都会有不同的处理方式,如果处理方式得当,故障能够快速止血顺利恢复,反之可能会错上加错!!!基于以往经验,在这里推荐一套通用的生产故障处理 SOP,他可能无法帮你快速定位问题,但是可以尽可能缩短恢复时间,降低故障影响! 二、参考流程 阶段一:快速处理(故障发现–>故障止血)【1-5-15】步骤内容说明故障发现时间注意点步骤 1 拉故障处理群、拉电话会议先拉自己的直属 Leader、运维人员 1min 内【第一时间执行!】,避免信息差!步……