机械工业出版社旗舰店店铺主页二维码
机械工业出版社旗舰店 微信认证
微信扫描二维码,访问我们的微信店铺
你可以使用微信联系我们,随时随地的购物、客服咨询、查询订单和物流...

官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍

67.30
运费: ¥ 0.00-30.00
官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品图0
官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品图1
官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品图2
官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品图3
官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品图4
官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品图5
官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品图6
官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品图7
官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品图8
官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品缩略图0 官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品缩略图1 官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品缩略图2 官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品缩略图3 官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品缩略图4 官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品缩略图5 官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品缩略图6 官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品缩略图7 官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍 商品缩略图8

商品详情

书名:SRE原理与实践:构建高可靠性互联网应用  
定价:99.0  
ISBN:9787111715825  
作者:张观石  
版次:1  

内容提要:  

内容介绍

    这是一本从架构、开发、测试、运维全流程讲解如何进行软件可靠性工程建设的著作,它将帮助读者构建针对软件可靠性工程的完整的知识体系、工程体系和理论体系。

    本书作者是虎牙科技的SRE架构师,他基于20余年的架构、研发和运维经验,用4年时间反复打磨,代表中国的工程师总结了中国互联网企业的SRE方法和经验。本书得到了中国SRE奠基人、虎牙科技CEO以及华为、腾讯、阿里、B站、亚马逊等企业的10余位技术专家高度评价并一致推荐。

本书参考传统可靠性工程及软件可靠性工程体系,把传统可靠性工程中的“六性”(可靠性、维修性、测试性、保障性、安全性、环境适应性)转化为互联网软件可靠性工程的6种能力(可靠性设计能力、观测能力、修复能力、保障能力、反脆弱能力、管理能力)。每一项能力都包括:互联网SRE体系中的概念、能力的设计、能力建设的原则与方法、能力的度量与改进,以及相应的实践案例。通过这6种能力把可靠性相关的工作组织起来,6种能力对应6个工作方向,不仅清晰地描绘出互联网软件可靠性工程体系的全貌,而且详细阐述了每一种能力的获得方法。

本书基于传统可靠性和软件可靠性的研究成果,借鉴和应用它们的成熟理论和工程方法,结合互联网软件的实际情况并加以融合和改进,提出了一套符合互联网时代的软件可靠性工程方法。

此外,本书还介绍了可靠性管理能力,对互联网软件开发团队、运维团队的技术领导者以及希望转型为可靠性工程师的传统运维人员、开发人员应该都有一定参考价值。






目录:  

推荐序1

推荐序2

推荐序3

推荐序4

赞 誉

前 言

第1章 互联网软件可靠性概论 1

1.1 为什么要研究互联网软件可靠性

工程 1

1.1.1 大型互联网企业的典型案例

回顾 1

1.1.2 研究互联网服务可靠性的

迫切性和重要性 3

1.1.3 研究软件可靠性工程是未来更

复杂的软件产品发展的需要 3

1.2 什么是可靠性工程 3

1.2.1 可靠性与可靠性工程概述 4

1.2.2 可靠性工程发展的3个阶段 4

1.2.3 传统物理可靠性工程方法 6

1.3 软件可靠性工程 9

1.3.1 软件可靠性工程的概念 9

1.3.2 软件可靠性工程发展的两个

阶段 10

1.4 互联网软件的可靠性 16

1.4.1 相关名词介绍 16

1.4.2 互联网软件可靠性工程现状及

挑战 18

1.4.3 互联网软件可靠性工程方法

发展的3个阶段 21

1.5 互联网软件可靠性工程的工作

思路 26

1.5.1 理解软件可靠性的3个核心

问题 26

1.5.2 建立可靠性工程体系框架的

思路 30

1.6 本章小结 31

第2章 互联网软件可靠性工程及

可靠性度量 32

2.1 软件生命周期的可靠性工作 32

2.1.1 互联网软件生命周期的可靠性

工作及原则 33

2.1.2 需求阶段的可靠性工作 34

2.1.3 设计与实现阶段的可靠性

工作 35

2.1.4 测试与验证阶段的可靠性

工作 37

2.1.5 部署与发布阶段的可靠性

工作 38

2.1.6 持续运行阶段的可靠性

工作 39

2.2 故障生命周期的可靠性工作 41

2.2.1 监控故障 42

2.2.2 故障定界定位 42

2.2.3 修复故障 43

2.3 可靠性工程6种能力综述 44

2.4 互联网软件可靠性度量与评价 45

2.4.1 可靠性度量介绍 45

2.4.2 可靠性度量和分析方法 47

2.4.3 软件可靠性度量过程 54

2.4.4 如何制定可靠性目标 58

2.5 本章小结 60

第3章 互联网软件可靠性设计与

分析 61

3.1 为什么要进行可靠性设计 61

3.1.1 什么是可靠性设计 61

3.1.2 可靠性是设计出来的 62

3.2 可靠性设计原则与通用方法 64

3.2.1 可靠性设计的原则 64

3.2.2 可靠性设计的4种方法 65

3.3 软件可靠性架构模型 68

3.4 可靠性分析与架构风险 72

3.5 可靠性分配 74

3.5.1 可靠性分配的目的 74

3.5.2 可靠性分配的原则 75

3.5.3 可靠性分配的方法 75

3.6 架构分层设计及其可靠性方法 76

3.6.1 可靠性视角的分层架构 77

3.6.2 业务架构的可靠性设计 78

3.6.3 应用架构的可靠性设计 78

3.6.4 系统架构的可靠性设计 85

3.6.5 部署架构的可靠性设计 92

3.6.6 基础设施架构的可靠性设计 97

3.6.7 可靠性相关能力的设计 99

3.7 架构可靠性评审 99

3.7.1 评审目的 99

3.7.2 评审过程 100

3.7.3 评审方法 101

3.8 可靠性预计 102

3.9 本章小结 103

第4章 可靠性观测能力建设与

实践 104

4.1 建设观测能力的目的 104

4.2 排查、监控、观测技术的发展 107

4.2.1 登录服务器通过系统命令

排查问题 107

4.2.2 集中式监控系统与日志系统 110

4.2.3 可观测性 115

4.2.4 观测能力与监控 116

4.2.5 建立综合的观测能力 117

4.3 监控观测的感知场景与感知

方式 118

4.3.1 业务可靠性感知 119

4.3.2 影响范围及原因定界定位 121

4.3.3 帮助理解复杂系统结构并

自动建模 126

4.3.4 智能告警条件的数据感知 129

4.3.5 根因推荐与排查诊断、决策 131

4.3.6 容量感知与弹性 135

4.3.7 人的感知与决策能力 137

4.3.8 场景化的固化大盘 138

4.3.9 巡检与非实时分析 140

4.4 观测能力设计 141

4.4.1 设计原则 141

4.4.2 设计方法 143

4.5 观测能力要求与度量 148

4.5.1 定性要求与分析 148

4.5.2 定量要求与分析 150

4.6 观测能力建设实践 154

4.7 本章小结 157

第5章 故障修复、综合保障能力建设与实践 158

5.1 软件故障修复能力概述 158

5.1.1 什么是软件故障修复能力 158

5.1.2 修复能力是现代软件系统的

重要能力 159

5.1.3 研究故障规律是修复能力的

基础 159

5.2 软件故障修复能力设计与建设 160

5.2.1 设计原则 160

5.2.2 预案平台的设计 163

5.2.3 变更型故障快速修复 167

5.2.4 灾难型故障快速修复 171

5.2.5 容量型故障快速修复 175

5.2.6 应急协同 177

5.3 运维保障能力 184

5.4 修复能力的度量和要求 188

5.4.1 定性要求 188

5.4.2 定量要求与评估 189

5.5 修复能力及保障能力建设实践 193

5.5.1 虎牙音视频修复能力实践 193

5.5.2 预案平台建设实践 194

5.5.3 虎牙带宽资源保障能力

实践 196

5.6 本章小结 196

第6章 可靠性试验与反脆弱能力

建设与实践 197

6.1 互联网软件可靠性试验与反脆弱

能力概述 197

6.1.1 什么是可靠性试验与反脆弱

能力 198

6.1.2 为什么要反脆弱 199

6.2 软件系统的脆弱性因素分析 200

6.2.1 环境、产品、人的关系 201

6.2.2 脆弱性因素分析 202

6.3 反脆弱能力建设与分析 212

6.3.1 应对脆弱性的思路 213

6.3.2 反脆弱能力建设原则 213

6.3.3 环境脆弱性的可靠性试验:

混沌工程 214

6.3.4 软件系统自身的可靠性试验:

故障注入 218

6.3.5 人为因素反脆弱设计:

故障演练 221

6.3.6 变更型故障反脆弱设计:

变更管控 222

6.4 可靠性试验与反脆弱能力的

要求 223

6.4.1 定性要求 223

6.4.2 定量要求 226

6.5 实践案例 227

6.6 本章小结 230

第7章 可靠性管理能力 231

7.1 可靠性管理工作概述 231

7.2 软件可靠性工作规划及目标

管理 235

7.3 故障治理 237

7.3.1 故障复盘 238

7.3.2 故障评审定级 243

7.3.3 定期回顾可靠性 247

7.4 人员与团队管理 248

7.4.1 可靠性工程师团队 248

7.4.2 团队转型 250

7.5 以SRE方式运维业务 254

7.5.1 以SRE方式接手现有业务 255

7.5.2 接手新业务 256

7.6 本章小结 257



机械工业出版社旗舰店店铺主页二维码
机械工业出版社旗舰店 微信公众号认证
扫描二维码,访问我们的微信店铺
随时随地的购物、客服咨询、查询订单和物流...

官方正版 SRE原理与实践 构建高可靠性互联网应用 张观石 互联网应用技术书籍

手机启动微信
扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏

微信支付

支付宝

扫一扫购买

打开微信,扫一扫

或搜索微信号:cmp1952
机工书院官方微信公众号

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏