图书介绍
大数据丛书 大数据处理之道PDF|Epub|txt|kindle电子书版本网盘下载
- 何金池编著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121287237
- 出版时间:2013
- 标注页数:270页
- 文件大小:34MB
- 文件页数:286页
- 主题词:数据处理
PDF下载
下载说明
大数据丛书 大数据处理之道PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
0“疯狂”的大数据1
0.1 大数据时代1
0.2 数据就是“金库”3
0.3 让大数据“活”起来4
第1篇 Hadoop军营7
1Hadoop一石激起千层浪7
1.1 Hadoop诞生——不仅仅是玩具7
1.2 Hadoop发展——各路英雄集结8
1.3 Hadoop和它的小伙伴们10
1.4 Hadoop应用场景12
1.5 小结13
2 MapReduce奠定基石14
2.1 MapReduce设计思想14
2.2 MapReduce运行机制19
2.2.1 MapReduce的组成19
2.2.2 MapReduce作业运行流程20
2.2.3 JobTracker解剖26
2.2.4 TaskTracker解剖34
2.2.5 失败场景分析42
2.3 MapReduce实例分析43
2.3.1 运行WordCount程序44
2.3.2 WordCount源码分析45
2.4 小结48
3分布式文件系统49
3.1 群雄并起的DFS49
3.2 HDFS文件系统51
3.2.1 HDFS设计与架构52
3.2.2 HDFS操作与API56
3.2.3 HDFS的优点及适用场景60
3.2.4 HDFS的缺点及改进策略61
3.3 小结62
4 Hadoop体系的“四剑客”63
4.1 数据仓库工具Hive63
4.1.1 Hive缘起何处63
4.1.2 Hive和数据库的区别65
4.1.3 Hive设计思想与架构66
4.1.4 适用场景74
4.2 大数据仓库HBase74
4.2.1 HBase因何而生74
4.2.2 HBase的设计思想和架构77
4.2.3 HBase优化技巧84
4.2.4 HBase和Hive的区别86
4.3 Pig编程语言87
4.3.1 Pig的缘由87
4.3.2 Pig的基本架构88
4.3.3 Pig与Hive的对比90
4.3.4 Pig的执行模式90
4.3.5 Pig Latin语言及其应用91
4.4 协管员ZooKeeper96
4.4.1 ZooKeeper是什么96
4.4.2 ZooKeeper的作用97
4.4.3 ZooKeeper的架构98
4.4.4 ZooKeeper的数据模型100
4.4.5 ZooKeeper的常用接口及操作102
4.4.6 ZooKeeper的应用场景分析105
4.5 小结108
5 Hadoop资源管理与调度110
5.1 Hadoop调度机制110
5.1.1 FIFO111
5.1.2 计算能力调度器111
5.1.3 公平调度器113
5.2 Hadoop YARN资源调度114
5.2.1 YARN产生的背景114
5.2.2 Hadoop YARN的架构116
5.2.3 YARN的运作流程118
5.3 Apache Mesos资源调度120
5.3.1 Apache Mesos的起因120
5.3.2 Apache Mesos的架构121
5.3.3 基于Mesos的Hadoop123
5.4 Mesos与YARN对比127
5.5 小结128
6 Hadoop集群管理之道129
6.1 Hadoop集群管理与维护129
6.1.1 Hadoop集群管理129
6.1.2 Hadoop集群维护131
6.2 Hadoop集群调优132
6.2.1 Linux文件系统调优132
6.2.2 Hadoop通用参数调整133
6.2.3 HDFS相关配置133
6.2.4 MapReduce相关配置134
6.2.5 Map任务相关配置136
6.2.6 HBase搭建重要的HDFS参数137
6.3 Hadoop集群监控137
6.3.1 Apache Ambari监控137
6.3.2 Ganglia监控Hadoop138
6.4 小结138
第2篇 Spark星火燎原141
7 Spark宝刀出鞘141
7.1 Spark的历史渊源141
7.1.1 Spark的诞生141
7.1.2 Spark的发展142
7.2 Spark和Hadoop MapReduce对比143
7.3 Spark的适用场景145
7.4 Spark的硬件配置146
7.5 Spark架构147
7.5.1 Spark生态架构147
7.5.2 Spark运行架构149
7.6 小结151
8 Spark核心RDD153
8.1 RDD简介153
8.1.1 什么是RDD153
8.1.2 为什么需要RDD154
8.1.3 RDD本体的设计154
8.1.4 RDD与分布式共享内存155
8.2 RDD的存储级别155
8.3 RDD依赖与容错157
8.3.1 RDD依赖关系157
8.3.2 RDD容错机制160
8.4 RDD操作与接口161
8.4.1 RDD Transformation操作与接口162
8.4.2 RDD Action操作与接口164
8.5 RDD编程示例165
8.6 小结166
9 Spark运行模式和流程167
9.1 Spark运行模式167
9.1.1 Spark的运行模式列表167
9.1.2 Local模式168
9.1.3 Standalone模式169
9.1.4 Spark on Mesos模式171
9.1.5 Spark on YARN模式173
9.1.6 Spark on EGO模式175
9.2 Spark作业流程177
9.2.1 YARN-Client模式的作业流程178
9.2.2 YARN-Cluster模式的作业流程179
9.3 小结181
10Shark和Spark SQL183
10.1 从Shark到Spark SQL183
10.1.1 Shark的撤退是进攻183
10.1.2 Spark SQL接力185
10.1.3 Spark SQL与普通SQL的区别186
10.2 Spark SQL应用架构187
10.3 Spark SQL之DataFrame188
10.3.1 什么是DataFrame188
10.3.2 DataFrame的创建188
10.3.3 DataFrame的使用190
10.4 Spark SQL运行过程分析190
10.5 小结192
11Spark Streaming流数据处理新贵193
11.1 Spark Streaming是什么193
11.2 Spark Streaming的架构194
11.3 Spark Streaming的操作195
11.3.1 Spark Streaming的Transformation操作196
11.3.2 Spark Streaming的Window操作197
11.3.3 Spark Streaming的Output操作198
11.4 Spark Streaming性能调优198
11.5 小结200
12 Spark GraphX图计算系统201
12.1 图计算系统201
12.1.1 图存储模式202
12.1.2 图计算模式203
12.2 Spark GraphX的框架206
12.3 Spark GraphX的存储模式207
12.4 Spark GraphX的图运算符208
12.5 小结211
13 Spark Cluster管理212
13.1 Spark Cluster部署212
13.2 Spark Cluster管理与监控213
13.2.1 内存优化机制213
13.2.2 Spark日志系统213
13.3 Spark高可用性215
13.4 小结216
第3篇 其他大数据处理技术218
14专为流数据而生的Storm218
14.1 Storm起因218
14.2 Storm的架构与组件220
14.3 Storm的设计思想222
14.4 Storm与Spark的区别224
14.5 Storm的适用场景225
14.6 Storm的应用226
14.7 小结227
15 Dremel和Drill228
15.1 Dremel和Drill的历史背景228
15.2 Dremel的原理与应用230
15.3 Drill的架构与流程232
15.4 Dremel和Drill的适用场景与应用234
15.5 小结234
第4篇 大数据下的日志分析系统236
16日志分析解决方案236
16.1 百花齐放的日志处理技术236
16.2 日志处理方案ELK238
16.2.1 ELK的三大金刚238
16.2.2 ELK的架构240
16.2.3 ELK的组网形式242
16.3 Logstash日志收集解析245
16.3.1 Input Plugins及应用示例246
16.3.2 Filter Plugins及应用示例248
16.3.3 Output Plugins及应用示例249
16.4 ElasticSearch存储与搜索250
16.4.1 ElasticSearch的主要概念251
16.4.2 ElasticSearch Rest API252
16.5 Kibana展示253
16.6 小结255
17 ELK集群部署与应用256
17.1 ELK集群部署与优化256
17.1.1 ELK HA集群部署256
17.1.2 ElasticSearch优化257
17.2 如何开发自己的插件259
17.3 ELK在大数据运维系统中的应用261
17.4 ELK实战应用262
17.4.1 ELK监控Spark集群262
17.4.2 ELK监控系统资源状态263
17.4.3 ELK辅助日志管理和故障排查263
17.5 小结264
第5篇 数据分析技术前景展望266
18大数据处理的思考与展望266
18.1 大数据时代的思考266
18.2 大数据处理技术的发展趋势267
18.3 小结270