Incident Management for Operations

作者：	Rob Schnepp, Ron Vidal, and Chris Hawley
语言：	英文
出版年份：	2017
下载链接：	PDF 城通网盘 AZW3 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

一、书籍背景

《Incident Management for Operations》由 Rob Schnepp、Ron Vidal 和 Chris Hawley 联合撰写，于 2017 年由 O’Reilly Media 出版。本书的创作灵感源自作者之一 Jesse Robbins 在亚马逊担任 “灾难大师” 时，将消防领域的事故管理经验引入 IT 领域并取得显著成效的经历。随着技术的快速发展，越来越多的企业依赖复杂的技术系统，而这些系统发生重大事故的风险也在增加。作者们凭借在消防和关键基础设施领域超过 100 年的事故指挥经验，将经过实战检验的事故响应方法引入 IT 运营，旨在帮助技术组织建立可靠且有弹性的事故管理体系。

二、主要内容

（一）评估事故响应流程

书中首先介绍了如何评估现有的事故响应流程，包括定义事故、事件和警报，分析事故响应团队的构成、响应效率以及与利益相关者的沟通方式等。作者提出了一个通用的事故生命周期模型，包含十个步骤，如问题检测、确定是否为事故、派遣响应团队、建立指挥、通知利益相关者等，强调了优化每个环节以减少平均修复时间（MTTR）的重要性。

（二）事故管理系统（IMS）

IMS 是本书的核心内容之一。它起源于 1970 年美国加州的一系列毁灭性野火事件后，消防部门为有效管理紧急事件而开发的系统。IMS 为 IT 事故响应提供了一个框架，能够快速组织团队，明确单一领导点，并标准化响应人员的职能和术语。书中详细阐述了 IMS 的关键组成部分，如指挥官、通信官、小组领导、计划组、专家等角色的职责和作用，以及如何在不同规模和复杂度的事故中灵活应用 IMS。

（三）事故指挥官（IC）

事故指挥官是 IMS 中的关键角色，负责领导整个响应工作。作者强调了 IC 应具备的特质，如坚定的领导力、清晰的指挥存在感、能够激发团队信心等。书中还讨论了 IC 在事故响应过程中的具体职责，包括制定响应目标、协调专家、管理时间、与利益相关者沟通等，并提供了如何有效进行沟通、决策和团队协作的实用建议。

（四）事故响应的扩展

随着事故规模和复杂性的增加，响应团队需要相应地扩展。书中介绍了如何通过增加响应人员、建立更复杂的组织结构来应对大型事故，同时保持有效的指挥和控制。此外，还探讨了统一指挥（UC）的概念，即在涉及多个业务部门或功能领域的复杂事故中，如何通过高层领导的协调和决策来统一响应行动。

（五）事故后行动回顾（AAR）

AAR 是事故管理的重要环节，用于评估事故响应的效果，总结经验教训，以便在未来更好地应对类似事件。书中指出，AAR 不应仅仅关注技术故障的原因，而应全面评估人员响应、指挥系统、决策过程等各个方面。作者提出了一套标准化的 AAR 方法，包括收集事故相关数据、创建时间线、分析人员行为、提出改进建议等，并强调了建立无责备文化的重要性，以鼓励团队成员诚实地分享经验和观点。

三、目标读者

本书适用于各类技术组织中的 IT 运营人员、事故响应团队成员、技术领导者、开发运维团队、网络安全专家以及任何希望提高事故管理能力的专业人士。无论是在小型创业公司还是大型企业，书中所介绍的 IMS 和相关实践都能帮助读者构建高效、可靠的事故响应体系。

四、书籍价值

《Incident Management for Operations》将消防领域的成熟事故管理理念与 IT 运营相结合，为技术行业提供了一种全新的事故响应方法。书中不仅提供了理论框架和实践指南，还通过丰富的案例分析和实战经验，帮助读者深入理解如何在复杂的技术环境中有效应对事故，保护企业的业务连续性和声誉。此外，书中强调了建立事故响应文化的必要性，以及持续评估和改进事故管理流程的重要性，对于希望提升 IT 运营可靠性和弹性的组织和个人来说，具有极高的参考价值。