97 Things Every SRE Should Know

作者：	Emil Stolarsky and Jaime Woo
语言：	英文
出版年份：	2021
下载链接：	PDF 城通网盘 EPUB 城通网盘书籍均收集自互联网，仅供学习和研究使用，请莫用于商业用途。谢谢合作。

书籍摘要

核心定位

这不是一本按单一技术栈展开的 SRE 教程，而是一部围绕站点可靠性工程实践的短文集。它试图回答的不是“某个工具怎么配”，而是组织为什么需要 SRE、SRE 应该关注哪些判断框架，以及团队在不同发展阶段该优先解决什么问题。

全书由近百篇短文组成，强调用多位一线从业者的经验来搭建 SRE 认知。前言把 SRE定义为同时面向技术系统与社会技术协作的文化实践；随后按团队规模推进，从“刚接触 SRE”到“形成较成熟的 SRE 组织”，最后再讨论这一领域的未来议题，因此更像一本可跳读的实践参考书，而不是线性课程。

第一部分聚焦 SRE 入门。已读内容中，第一章用“度量、分析、决策、行动、复盘、重复”六个动作概括 SRE 的基本工作法，强调可靠性改进必须以数据驱动的迭代为核心。

第二章追问“为什么要可靠性”，把讨论从口号拉回商业权衡：可靠性并非越高越好，而要结合用户体验、收入影响和组织目标来理解，这也为后续 SLO、事件响应与团队协作等主题打下判断基础。

其余部分从结构说明可确认会分别讨论 0-1 人、1-10 人、10-100 人的 SRE 组织形态，以及未来趋势，重点显然是随着团队规模扩大，职责、协作与治理如何变化。

适合刚进入 SRE、运维平台工程师转向可靠性工作、以及需要和 SRE 团队协作的工程经理阅读。它不太适合只想系统学习某一监控产品或云平台操作细节的读者；默认读者最好已具备基本运维、分布式系统或服务交付经验。

这本书的价值在于把 SRE 从“值班与告警”提升为一套兼顾技术、业务和组织设计的实践集合。短文体让它很适合按问题查阅、做团队读书会或作为经验校准材料；如果你想建立更成熟的可靠性判断框架，而不是只收集工具清单，它很值得读。