《SRE google 运维解密》读书笔记 (四)

犀利豆 at 
事后总结:从失败中学习哲学保证事故能够被记录下来,理清所有根源问题。确保实施有效的措施是的未来重现的几率和影响得以降低,甚至避免。书写事后总结不是一种惩罚,而是整个公司的一次学习机会。需要书写的标准:用户可见的宕机或者服务质量下降到一定标准任何形式的数据丢失 on-call 工程师需要人工介入问题解决耗时超过一定限制监控问题事后总结“对事不对人”。必须关注如何定位造成这次事件的根本问题。而不是指责某个人或者某个团队的错误或者不恰当。事后总结系统性,逻辑性的讨论为什么会在事故过程中获得错误的的信息,才能更好的建立预防措施,防止问题再现。最佳实践:避免指责,提供建设性意见协作和知识共享实时协作开放……