图书介绍

大数据丛书 大数据处理之道PDF|Epub|txt|kindle电子书版本网盘下载

大数据丛书 大数据处理之道
  • 何金池编著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121287237
  • 出版时间:2013
  • 标注页数:270页
  • 文件大小:34MB
  • 文件页数:286页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据丛书 大数据处理之道PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

0“疯狂”的大数据1

0.1 大数据时代1

0.2 数据就是“金库”3

0.3 让大数据“活”起来4

第1篇 Hadoop军营7

1Hadoop一石激起千层浪7

1.1 Hadoop诞生——不仅仅是玩具7

1.2 Hadoop发展——各路英雄集结8

1.3 Hadoop和它的小伙伴们10

1.4 Hadoop应用场景12

1.5 小结13

2 MapReduce奠定基石14

2.1 MapReduce设计思想14

2.2 MapReduce运行机制19

2.2.1 MapReduce的组成19

2.2.2 MapReduce作业运行流程20

2.2.3 JobTracker解剖26

2.2.4 TaskTracker解剖34

2.2.5 失败场景分析42

2.3 MapReduce实例分析43

2.3.1 运行WordCount程序44

2.3.2 WordCount源码分析45

2.4 小结48

3分布式文件系统49

3.1 群雄并起的DFS49

3.2 HDFS文件系统51

3.2.1 HDFS设计与架构52

3.2.2 HDFS操作与API56

3.2.3 HDFS的优点及适用场景60

3.2.4 HDFS的缺点及改进策略61

3.3 小结62

4 Hadoop体系的“四剑客”63

4.1 数据仓库工具Hive63

4.1.1 Hive缘起何处63

4.1.2 Hive和数据库的区别65

4.1.3 Hive设计思想与架构66

4.1.4 适用场景74

4.2 大数据仓库HBase74

4.2.1 HBase因何而生74

4.2.2 HBase的设计思想和架构77

4.2.3 HBase优化技巧84

4.2.4 HBase和Hive的区别86

4.3 Pig编程语言87

4.3.1 Pig的缘由87

4.3.2 Pig的基本架构88

4.3.3 Pig与Hive的对比90

4.3.4 Pig的执行模式90

4.3.5 Pig Latin语言及其应用91

4.4 协管员ZooKeeper96

4.4.1 ZooKeeper是什么96

4.4.2 ZooKeeper的作用97

4.4.3 ZooKeeper的架构98

4.4.4 ZooKeeper的数据模型100

4.4.5 ZooKeeper的常用接口及操作102

4.4.6 ZooKeeper的应用场景分析105

4.5 小结108

5 Hadoop资源管理与调度110

5.1 Hadoop调度机制110

5.1.1 FIFO111

5.1.2 计算能力调度器111

5.1.3 公平调度器113

5.2 Hadoop YARN资源调度114

5.2.1 YARN产生的背景114

5.2.2 Hadoop YARN的架构116

5.2.3 YARN的运作流程118

5.3 Apache Mesos资源调度120

5.3.1 Apache Mesos的起因120

5.3.2 Apache Mesos的架构121

5.3.3 基于Mesos的Hadoop123

5.4 Mesos与YARN对比127

5.5 小结128

6 Hadoop集群管理之道129

6.1 Hadoop集群管理与维护129

6.1.1 Hadoop集群管理129

6.1.2 Hadoop集群维护131

6.2 Hadoop集群调优132

6.2.1 Linux文件系统调优132

6.2.2 Hadoop通用参数调整133

6.2.3 HDFS相关配置133

6.2.4 MapReduce相关配置134

6.2.5 Map任务相关配置136

6.2.6 HBase搭建重要的HDFS参数137

6.3 Hadoop集群监控137

6.3.1 Apache Ambari监控137

6.3.2 Ganglia监控Hadoop138

6.4 小结138

第2篇 Spark星火燎原141

7 Spark宝刀出鞘141

7.1 Spark的历史渊源141

7.1.1 Spark的诞生141

7.1.2 Spark的发展142

7.2 Spark和Hadoop MapReduce对比143

7.3 Spark的适用场景145

7.4 Spark的硬件配置146

7.5 Spark架构147

7.5.1 Spark生态架构147

7.5.2 Spark运行架构149

7.6 小结151

8 Spark核心RDD153

8.1 RDD简介153

8.1.1 什么是RDD153

8.1.2 为什么需要RDD154

8.1.3 RDD本体的设计154

8.1.4 RDD与分布式共享内存155

8.2 RDD的存储级别155

8.3 RDD依赖与容错157

8.3.1 RDD依赖关系157

8.3.2 RDD容错机制160

8.4 RDD操作与接口161

8.4.1 RDD Transformation操作与接口162

8.4.2 RDD Action操作与接口164

8.5 RDD编程示例165

8.6 小结166

9 Spark运行模式和流程167

9.1 Spark运行模式167

9.1.1 Spark的运行模式列表167

9.1.2 Local模式168

9.1.3 Standalone模式169

9.1.4 Spark on Mesos模式171

9.1.5 Spark on YARN模式173

9.1.6 Spark on EGO模式175

9.2 Spark作业流程177

9.2.1 YARN-Client模式的作业流程178

9.2.2 YARN-Cluster模式的作业流程179

9.3 小结181

10Shark和Spark SQL183

10.1 从Shark到Spark SQL183

10.1.1 Shark的撤退是进攻183

10.1.2 Spark SQL接力185

10.1.3 Spark SQL与普通SQL的区别186

10.2 Spark SQL应用架构187

10.3 Spark SQL之DataFrame188

10.3.1 什么是DataFrame188

10.3.2 DataFrame的创建188

10.3.3 DataFrame的使用190

10.4 Spark SQL运行过程分析190

10.5 小结192

11Spark Streaming流数据处理新贵193

11.1 Spark Streaming是什么193

11.2 Spark Streaming的架构194

11.3 Spark Streaming的操作195

11.3.1 Spark Streaming的Transformation操作196

11.3.2 Spark Streaming的Window操作197

11.3.3 Spark Streaming的Output操作198

11.4 Spark Streaming性能调优198

11.5 小结200

12 Spark GraphX图计算系统201

12.1 图计算系统201

12.1.1 图存储模式202

12.1.2 图计算模式203

12.2 Spark GraphX的框架206

12.3 Spark GraphX的存储模式207

12.4 Spark GraphX的图运算符208

12.5 小结211

13 Spark Cluster管理212

13.1 Spark Cluster部署212

13.2 Spark Cluster管理与监控213

13.2.1 内存优化机制213

13.2.2 Spark日志系统213

13.3 Spark高可用性215

13.4 小结216

第3篇 其他大数据处理技术218

14专为流数据而生的Storm218

14.1 Storm起因218

14.2 Storm的架构与组件220

14.3 Storm的设计思想222

14.4 Storm与Spark的区别224

14.5 Storm的适用场景225

14.6 Storm的应用226

14.7 小结227

15 Dremel和Drill228

15.1 Dremel和Drill的历史背景228

15.2 Dremel的原理与应用230

15.3 Drill的架构与流程232

15.4 Dremel和Drill的适用场景与应用234

15.5 小结234

第4篇 大数据下的日志分析系统236

16日志分析解决方案236

16.1 百花齐放的日志处理技术236

16.2 日志处理方案ELK238

16.2.1 ELK的三大金刚238

16.2.2 ELK的架构240

16.2.3 ELK的组网形式242

16.3 Logstash日志收集解析245

16.3.1 Input Plugins及应用示例246

16.3.2 Filter Plugins及应用示例248

16.3.3 Output Plugins及应用示例249

16.4 ElasticSearch存储与搜索250

16.4.1 ElasticSearch的主要概念251

16.4.2 ElasticSearch Rest API252

16.5 Kibana展示253

16.6 小结255

17 ELK集群部署与应用256

17.1 ELK集群部署与优化256

17.1.1 ELK HA集群部署256

17.1.2 ElasticSearch优化257

17.2 如何开发自己的插件259

17.3 ELK在大数据运维系统中的应用261

17.4 ELK实战应用262

17.4.1 ELK监控Spark集群262

17.4.2 ELK监控系统资源状态263

17.4.3 ELK辅助日志管理和故障排查263

17.5 小结264

第5篇 数据分析技术前景展望266

18大数据处理的思考与展望266

18.1 大数据时代的思考266

18.2 大数据处理技术的发展趋势267

18.3 小结270

热门推荐