图书介绍
Hadoop技术内幕 深入解析MapReduce架构设计与实现原理PDF|Epub|txt|kindle电子书版本网盘下载
![Hadoop技术内幕 深入解析MapReduce架构设计与实现原理](https://www.shukui.net/cover/29/31050916.jpg)
- 董西成著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111422266
- 出版时间:2013
- 标注页数:320页
- 文件大小:48MB
- 文件页数:335页
- 主题词:数据处理软件
PDF下载
下载说明
Hadoop技术内幕 深入解析MapReduce架构设计与实现原理PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 基础篇2
第1章 阅读源代码前的准备2
1.1 准备源代码学习环境2
1.1.1 基础软件下载2
1.1.2 如何准备Windows环境3
1.1.3 如何准备Linux环境6
1.2 获取Hadoop源代码7
1.3 搭建Hadoop源代码阅读环境8
1.3.1 创建Hadoop工程8
1.3.2 Hadoop源代码阅读技巧9
1.4 Hadoop源代码组织结构10
1.5 Hadoop初体验13
1.5.1 启动Hadoop13
1.5.2 Hadoop Shell介绍15
1.5.3 Hadoop Eclipse插件介绍15
1.6 编译及调试Hadoop源代码19
1.6.1 编译Hadoop源代码19
1.6.2 调试Hadoop源代码20
1.7 小结23
第2章 MapReduce设计理念与基本架构24
2.1 Hadoop发展史24
2.1.1 Hadoop产生背景24
2.1.2 Apache Hadoop新版本的特性25
2.1.3 Hadoop版本变迁26
2.2 Hadoop MapReduce设计目标28
2.3 MapReduce编程模型概述29
2.3.1 MapReduce编程模型简介29
2.3.2 MapReduce编程实例31
2.4 Hadoop基本架构32
2.4.1 HDFS架构33
2.4.2 Hadoop MapReduce架构34
2.5 Hadoop MapReduce作业的生命周期36
2.6 小结38
第二部分 MapReduce编程模型篇40
第3章 MapReduce编程模型40
3.1 MapReduce编程模型概述40
3.1.1 MapReduce编程接口体系结构40
3.1.2 新旧MapReduce API比较41
3.2 MapReduce API基本概念42
3.2.1 序列化42
3.2.2 Reporter参数43
3.2.3 回调机制43
3.3 Java API解析44
3.3.1 作业配置与提交44
3.3.2 InputFormat接口的设计与实现48
3.3.3 OutputFormat接口的设计与实现53
3.3.4 Mapper与Reducer解析55
3.3.5 Partitioner接口的设计与实现59
3.4 非Java API解析61
3.4.1 Hadoop Streaming的实现原理61
3.4.2 Hadoop Pipes的实现原理64
3.5 Hadoop工作流67
3.5.1 JobControl的实现原理67
3.5.2 ChainMapper/ChainReducer的实现原理69
3.5.3 Hadoop工作流引擎71
3.6 小结73
第三部分 MapReduce核心设计篇76
第4章 Hadoop RPC框架解析76
4.1 Hadoop RPC框架概述76
4.2 Java基础知识77
4.2.1 Java反射机制与动态代理78
4.2.2 Java网络编程80
4.2.3 Java NIO82
4.3 Hadoop RPC基本框架分析89
4.3.1 RPC基本概念89
4.3.2 Hadoop RPC基本框架91
4.3.3 集成其他开源RPC框架98
4.4 MapReduce通信协议分析100
4.4.1 MapReduce通信协议概述100
4.4.2 JobSubmissionProtocol通信协议102
4.4.3 InterTrackerProtocol通信协议102
4.4.4 TaskUmbilicalProtocol通信协议103
4.4.5 其他通信协议104
4.5 小结106
第5章 作业提交与初始化过程分析107
5.1 作业提交与初始化概述107
5.2 作业提交过程详解108
5.2.1 执行Shell命令108
5.2.2 作业文件上传109
5.2.3 产生InputSplit文件111
5.2.4 作业提交到JobTracker113
5.3 作业初始化过程详解115
5.4 Hadoop DistributedCache原理分析117
5.4.1 使用方法介绍118
5.4.2 工作原理分析120
5.5 小结122
第6章 JobTracker内部实现剖析123
6.1 JobTracker概述123
6.2 JobTracker启动过程分析125
6.2.1 JobTracker启动过程概述125
6.2.2 重要对象初始化125
6.2.3 各种线程功能128
6.2.4 作业恢复129
6.3 心跳接收与应答129
6.3.1 更新状态131
6.3.2 下达命令131
6.4 Job和Task运行时信息维护134
6.4.1 作业描述模型134
6.4.2 JobInProgress136
6.4.3 TaskInProgress137
6.4.4 作业和任务状态转换图139
6.5 容错机制141
6.5.1 JobTracker容错141
6.5.2 TaskTracker容错142
6.5.3 Job/Task容错145
6.5.4 Record容错147
6.5.5 磁盘容错151
6.6 任务推测执行原理152
6.6.1 计算模型假设153
6.6.2 1.0.0版本的算法153
6.6.3 0.2 1.0版本的算法154
6.6.4 2.0版本的算法156
6.7 Hadoop资源管理157
6.7.1 任务调度框架分析159
6.7.2 任务选择策略分析162
6.7.3 FIFO调度器分析164
6.7.4 Hadoop资源管理优化165
6.8 小结168
第7章 TaskTracker内部实现剖析169
7.1 TaskTracker概述169
7.2 TaskTracker启动过程分析170
7.2.1 重要变量初始化171
7.2.2 重要对象初始化171
7.2.3 连接JobTracker172
7.3 心跳机制172
7.3.1 单次心跳发送172
7.3.2 状态发送175
7.3.3 命令执行178
7.4 TaskTracker行为分析179
7.4.1 启动新任务179
7.4.2 提交任务179
7.4.3 杀死任务181
7.4.4 杀死作业182
7.4.5 重新初始化184
7.5 作业目录管理184
7.6 启动新任务186
7.6.1 任务启动过程分析186
7.6.2 资源隔离机制193
7.7 小结195
第8章 Task运行过程分析196
8.1 Task运行过程概述196
8.2 基本数据结构和算法197
8.2.1 IFile存储格式197
8.2.2 排序198
8.2.3 Reporter201
8.3 Map Task内部实现204
8.3.1 Map Task整体流程204
8.3.2 Collect过程分析205
8.3.3 Spill过程分析213
8.3.4 Combine过程分析214
8.4 ReduceTask内部实现214
8.4.1 Reduce Task整体流程215
8.4.2 Shuffle和Merge阶段分析215
8.4.3 Sort和Reduce阶段分析218
8.5 Map/Reduce Task优化219
8.5.1 参数调优219
8.5.2 系统优化220
8.6 小结224
第四部分 MapReduce高级篇228
第9章 Hadoop性能调优228
9.1 概述228
9.2 从管理员角度进行调优229
9.2.1 硬件选择229
9.2.2 操作系统参数调优229
9.2.3 JVM参数调优230
9.2.4 Hadoop参数调优230
9.3 从用户角度进行调优235
9.3.1 应用程序编写规范235
9.3.2 作业级别参数调优235
9.3.3 任务级别参数调优239
9.4 小结240
第10章 Hadoop多用户作业调度器241
10.1 多用户调度器产生背景241
10.2 HOD242
10.2.1 Torque资源管理器242
10.2.2 HOD作业调度243
10.3 Hadoop队列管理机制245
10.4 Capacity Scheduler实现246
10.4.1 Capacity Scheduler功能介绍247
10.4.2 Capacity Scheduler实现249
10.4.3 多层队列调度254
10.5 Fair Scheduler实现255
10.5.1 Fair Scheduler功能介绍255
10.5.2 Fair Scheduler实现258
10.5.3 Fair Scheduler与Capacity Scheduler对比263
10.6 其他Hadoop调度器介绍264
10.7 小结265
第11章 Hadoop安全机制266
11.1 Hadoop安全机制概述266
11.1.1 Hadoop面临的安全问题266
11.1.2 Hadoop对安全方面的需求267
11.1.3 Hadoop安全设计基本原则267
11.2 基础知识268
11.2.1 安全认证机制268
11.2.2 Kerberos介绍270
11.3 Hadoop安全机制实现273
11.3.1 RPC273
11.3.2 HDFS276
11.3.3 MapReduce278
11.3.4 上层服务280
11.4 应用场景总结281
11.4.1 文件存取281
11.4.2 作业提交与运行282
11.4.3 上层中间件访问Hadoop282
11.5 小结283
第12章 下一代MapReduce框架284
12.1 第一代MapReduce框架的局限性284
12.2 下一代MapReduce框架概述284
12.2.1 基本设计思想284
12.2.2 资源统一管理平台286
12.3 Apache YARN287
12.3.1 Apache YARN基本框架287
12.3.2 Apache YARN工作流程290
12.3.3 Apache YARN设计细节291
12.3.4 MapReduce与YARN结合294
12.4 Facebook Corona298
12.4.1 Facebook Corona基本框架298
12.4.2 Facebook Corona工作流程300
12.4.3 YARN与Corona对比303
12.5 Apache Mesos304
12.5.1 Apache Mesos基本框架304
12.5.2 Apache Mesos资源分配305
12.5.3 MapReduce与Mesos结合307
12.6 小结309
附录A 安装Hadoop过程中可能存在的问题及解决方案310
附录B Hadoop默认HTTP端口号以及HTTP地址312
参考资料313