图书介绍
高可用性系统设计PDF|Epub|txt|kindle电子书版本网盘下载
![高可用性系统设计](https://www.shukui.net/cover/12/33172613.jpg)
- (美)Evan Marcus,(美)Hal Stern著;汪青青,卢祖英译 著
- 出版社: 北京:清华大学出版社
- ISBN:730210865X
- 出版时间:2005
- 标注页数:426页
- 文件大小:58MB
- 文件页数:445页
- 主题词:计算机系统-系统设计
PDF下载
下载说明
高可用性系统设计PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
目录1
第1章 介绍1
1.1 为什么需要一本可用性的书2
1.2 问题解决方法2
1.3 不包括的内容3
1.4 我们的任务3
1.5 可用性指数4
1.6 总结5
1.7 本书的组织结构5
1.8 要点6
2.1 测量可用性7
第2章 测量数据7
2.1.1 “9”表示法9
2.1.2 定义停机故障11
2.1.3 引起停机故障的原因11
2.1.4 可用性12
2.1.5 平均数14
2.1.6 可接受性15
2.2 故障模式16
2.2.1 硬件16
2.2.2 环境和物理故障17
2.2.3 网络故障18
2.2.4 文件和打印服务器故障18
2.2.5 数据库系统故障19
2.2.6 网页和应用程序服务器故障20
2.2.7 拒绝服务攻击21
2.3 对测量的信心22
2.3.1 可恢复性22
2.3.2 Sigma(σ)和“9”表示法23
2.4 要点24
第3章 可用性的价值25
3.1 高可用性的含义25
3.2 停机故障损失27
3.2.1 停机故障直接损失27
3.2.2 停机故障的间接损失28
3.3 可用性的价值30
3.3.1 例子1:双节点群集配置33
3.3.2 例子2:未知的停机损失36
3.4 可用性变化区间37
3.5 可用性指数图39
3.6 停机过程40
3.6.1 停机41
3.6.2 数据丢失42
3.6.3 降级模式43
3.6.4 预定停机44
3.7 要点46
4.1.1 从内部着手47
第4章 可用性政治策略47
4.1 开始游说47
4.1.2 然后走出去48
4.1.3 开始行动50
4.2 你的听众53
4.2.1 获得听众53
4.2.2 了解听众53
4.3 表达信息53
4.3.1 幻灯演示54
4.3.2 报告54
4.5 要点55
4.4 传递信息之后55
第5章 20条关键的高可用性设计原则57
5.1 #20:切勿贪便宜57
5.2 #19:不要想当然58
5.3 #18:消除单点故障59
5.4 #17:执行安全60
5.5 #16:加强服务器的性能61
5.6 #15:留意速度62
5.7 #14:实施更改控制63
5.8 #13:时时备案64
5.9 #12:采用服务级协议65
5.10 #11:超前策划66
5.11 #10:尽量多试验67
5.12 #9:隔离你的环境68
5.13 #8:以史为鉴69
5.14 #7:设计要留有余地70
5.15 #6:选择成熟的软件70
5.16 #5:选择成熟可靠的硬件72
5.17 #4:重新使用配置73
5.18 #3:利用外部资源74
5.19 #2:一步一个脚印75
5.20 #1:尽量简单化76
5.21 要点78
6.1 备份的基本规则79
第6章 备份与恢复79
6.2 备份能否真正提供高可用性81
6.3 需要对什么进行备份81
6.3.1 对备份进行备份82
6.3.2 获得异地备份82
6.4 备份软件83
6.4.1 商业软件还是自主研发83
6.4.2 商业备份软件实例83
6.4.3 商业备份软件的特性84
6.5 备份性能86
6.5.1 提高备份性能:找出瓶颈86
6.5.2 解决性能问题90
6.6.1 增量备份93
6.6 备份类型93
6.6.2 数据库增量备份95
6.6.3 缩短备份窗口96
6.6.4 热备份96
6.6.5 数据越少,越省时间(和空间)97
6.6.6 使用更多的硬件99
6.6.7 复杂的软件特征101
6.7 处理备份磁带和数据104
常规备份安全106
6.8 恢复107
恢复所需要的磁盘空间108
6.9 总结108
6.10 要点109
第7章 高度可用的数据管理110
7.1 四个基本原理111
7.1.1 磁盘发生故障的可能性111
7.1.2 磁带盘上的数据111
7.1.3 保护数据112
7.1.4 确保数据的可达性112
7.2 数据存储和管理的六个独立层次112
7.3 磁盘硬件与连通性术语113
7.3.1 SCSI113
7.3.2 光纤通道115
7.3.3 多路径116
7.3.6 热交换117
7.3.4 多主机117
7.3.5 磁盘阵列117
7.3.7 逻辑设备(LUN)和卷118
7.3.8 JBOD(就是一组磁盘)118
7.3.9 热备件118
7.3.10 写入高速缓存118
7.3.11 存储区域网络(SAN)118
7.4 RAID技术120
7.4.1 RAID的级别121
7.4.2 其他种类的RAID128
7.5 磁盘空间和文件系统133
7.5.1 大磁盘还是小磁盘134
7.5.2 当LUN填满时会出现什么情况135
7.5.3 管理磁盘和卷的可用性136
7.5.4 文件系统的恢复137
7.6 要点137
第8章 存储区域网络、网络连接存储与存储虚拟化139
8.1 存储区域网络139
8.1.1 选用SAN的理由141
8.1.2 SAN硬件设备简介143
8.2 网络连接存储144
8.3 SAN与NAS比较145
8.4 存储虚拟化149
8.4.2 存储虚拟化的类型150
8.4.1 选择存储虚拟化的理由150
8.5 要点153
第9章 组网154
9.1 网络故障分类155
9.1.1 网络可靠性挑战155
9.1.2 网络故障模式156
9.1.3 物理设备故障157
9.1.4 IP层故障158
9.1.5 拥塞引起的故障160
9.2 构建冗余网络162
9.2.1 虚拟IP地址163
9.2.2 冗余网络连接164
9.2.3 多重网络的配置167
9.2.4 IP路由冗余170
9.2.5 网络恢复模式选择172
9.3 负载平衡和网络重定向173
9.3.1 循环DNS173
9.3.2 网络重定向174
9.4 动态IP地址176
9.5 网络服务可靠性176
9.5.1 网络服务依赖性177
9.5.2 强化核心服务179
9.5.3 拒绝服务攻击180
9.6 要点182
10.1 数据中心183
第10章 数据中心和本地环境183
10.1.1 数据中心机架185
10.1.2 平衡安全性和可访问性187
10.1.3 数据中心观光188
10.1.4 异地主机设施189
10.2 电191
UPS191
10.3 线缆铺设193
10.4 冷却及环境问题195
10.5 系统命名惯例196
10.6 要点198
11.1 系统管理与修正199
第11章 人与程序199
11.1.1 维护计划与步骤200
11.1.2 系统修正201
11.1.3 备用设备方针203
11.1.4 预防性维护204
11.2 供应商管理204
11.2.1 选择关键的供应商205
11.2.2 与供应商合作207
11.2.3 在系统恢复中供应商的角色208
11.3 安全性209
11.3.2 病毒与蠕虫211
11.3.1 数据中心的安全211
11.4 文档212
11.4.1 文档的使用者213
11.4.2 文档与安全214
11.4.3 检查文档214
11.5 系统管理员215
11.6 内部扩增217
故障标识219
11.7 要点219
第12章 客户端与用户220
12.1 强化企业客户端220
12.1.1 客户端备份221
12.1.2 客户端补给222
12.1.3 瘦客户端223
12.2 容许数据服务故障224
12.2.1 文件服务器客户端恢复224
12.2.2 数据库应用程序恢复(Database Application Recovery)226
12.2.3 Web客户端恢复(Web Client Recovery)227
12.3 要点229
第13章 应用程序设计230
13.1 应用程序恢复概览231
13.1.1 应用程序的故障模式231
13.1.2 应用程序恢复技术232
13.2 从系统故障中进行应用程序恢复234
13.1.3 更软性的故障234
13.2.1 虚拟内存耗尽235
13.2.2 I/O错误236
13.2.3 数据库应用程序的重新连接236
13.2.4 网路连通性237
13.2.5 重启网络服务238
13.2.6 网络拥塞、重发和超时设定239
13.3 内部应用程序故障241
13.3.1 内存访问错误241
13.3.2 内存滥用和恢复242
13.4 开发人员“卫生学”243
13.3.3 挂起进程243
13.4.1 返回值检查244
13.4.2 边界条件检查245
13.4.3 基于值的安全246
13.4.4 日志支持247
13.5 进程复制248
13.5.1 冗余服务进程249
13.5.2 进程状态多路广播250
13.5.3 检查点技术251
13.6 不做假设,管理一切252
13.7 要点253
14.1 网络文件系统服务254
第14章 数据和Web服务254
14.1.1 检测RFC故障255
14.1.2 NFS服务器的约束256
14.1.3 文件锁定258
14.1.4 失效文件句柄260
14.2 数据库服务器261
14.2.1 管理恢复时间262
14.2.2 破坏之中求生存264
14.2.3 任何(高)速度下的不安全状态264
14.3 冗余和可用性266
多个实例对比更大的实例267
14.4 基于Web的服务可靠性268
14.4.1 Web服务器群集268
14.4.2 应用服务器270
14.4.3 目录服务器272
14.4.4 Web服务标准273
14.5 要点274
第15章 本地群集和故障转移276
15.1 群集技术简介277
15.2 服务器故障和故障转移279
15.3 逻辑性的以应用为中心的思想281
15.4 故障转移的要求282
15.4.2 服务器间的差异284
15.4.1 服务器284
15.4.3 网络286
15.4.4 磁盘292
15.4.5 应用程序295
15.5 大型群集295
15.6 要点296
第16章 故障转移管理和难题297
16.1 故障转移管理软件297
16.2 部件监控298
16.2.1 实施检测的人和关于其他部件监测的问题299
16.2.2 当部件检测失败时300
16.3 进行手工故障转移的时机301
16.4 自主开发的故障转移软件还是商业软件303
16.5 商业故障转移管理软件304
16.6 当好的故障转移软件出错时305
16.6.1 脑裂综合症305
16.6.2 不受欢迎的故障转移309
16.7 验证和检测310
16.7.1 状态转换图310
16.7.2 测试作品312
16.8 管理故障转移313
16.8.1 系统监测313
16.8.2 控制台313
16.8.3 工具314
16.9.1 复制数据群集315
16.9 其他群集话题315
16.8.4 时间问题315
16.9.2 群集之间的距离317
16.9.3 负载均衡群集和故障转移317
16.10 要点318
第17章 故障转移结构319
17.1 双节点故障转移结构319
17.1.1 “主-从”故障转移319
17.1.2 “主-主”故障转移324
17.1.3 “主-主”还是“主-从”325
17.2 服务组故障转移326
17.3.1 N对1群集系统328
17.3 更大型的群集系统结构328
17.3.2 N加1群集系统329
17.4 群集系统的规模应该有多大331
17.5 要点332
第18章 数据复制333
18.1 复制概述333
18.2 进行复制的原因334
18.3 复制类型334
18.3.1 四类按延迟时间划分的复制类型334
18.3.2 五种按启动程序划分的复制类型338
18.4 有关复制的其他思想351
18.4.1 SAN:复制的另一种方式351
18.4.2 多个目的地系统352
18.5 要点354
18.4.3 远程应用程序故障转移354
第19章 虚拟机和资源管理355
19.1 分区和域:系统级的VM356
19.2 容器:操作系统级的VM357
19.3 资源管理358
19.4 要点360
第20章 灾难恢复计划361
20.1 DR计划的是与非362
20.2 DR计划的3个主要目标362
20.2.1 员工的健康与保护362
20.3 良好的DR计划363
20.2.2 企业的存活363
20.2.3 企业的连续性363
20.4 准备构建DR计划364
20.5 选择DR现场368
20.5.1 实际位置368
20.5.2 DR现场安全371
20.5.3 停留在DR现场的时间372
20.6 分发DR计划372
20.6.1 DR计划内容372
20.6.2 分发措施373
20.7 计划受众374
20.8 时间线375
20.9.1 指派人员376
20.9 灾难恢复小组任务指派376
20.9.2 管理层的角色377
20.10 DR计划的多与寡378
20.11 共用DR现场379
20.12 装备DR现场380
20.13 DR计划的测试381
20.13.1 高质量演习的特性382
20.13.2 演习计划383
20.14 三种演习类型387
20.14.1 全面演练387
20.13.3 演习之后387
20.14.2 桌上演练388
20.14.3 电话链演练388
20.15 灾难对人员的影响389
20.15.1 对灾难的典型反应389
20.15.2 企业应采取的措施390
20.16 要点391
第21章 弹性企业392
21.1 纽约期货交易所392
21.1.1 第一次灾难的发生394
21.1.2 大型交易所决不该是这样的395
21.1.3 对千年虫问题的准备397
21.1.4 9·11事件400
21.1.5 恢复运行401
21.1.6 混乱的交易环境404
21.1.7 灾难恢复现场的改进406
21.1.8 新数据中心407
21.1.9 新交易设施407
21.1.10 未来的灾难恢复计划408
21.1.11 技术409
21.1.12 对人的影响411
21.2 总结412
第22章 未来技术展望414
22.1 iSCSI414
22.2 InfiniBand415
22.3 全部文件系统还原416
22.4 网格计算417
22.5 刀片计算418
22.6 全球存储储存库419
22.7 自主的、基于政策的计算421
22.8 媒介422
22.9 软件质量和Byzantine可靠性423
22.10 业务连续性424
22.11 要点424
第23章 别语425
我们怎么到达这里425