图书介绍
循序渐进学SparkPDF|Epub|txt|kindle电子书版本网盘下载
- 杨磊著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111563327
- 出版时间:2017
- 标注页数:242页
- 文件大小:21MB
- 文件页数:254页
- 主题词:数据处理软件
PDF下载
下载说明
循序渐进学SparkPDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章Spark架构与集群环境1
1.1 Spark概述与架构1
1.1.1 Spark概述2
1.1.2 Spark生态3
1.1.3 Spark架构5
1.2在Linux集群上部署Spark8
1.2.1安装OpenJDK9
1.2.2安装Scala9
1.2.3配置SSH免密码登录10
1.2.4 Hadoop的安装配置10
1.2.5 Spark的安装部署13
1.2.6 Hadoop与Spark的集群复制14
1.3 Spark集群试运行15
1.4 Intellij IDEA的安装与配置17
1.4.1 Intellij的安装17
1.4.2 Intellij的配置17
1.5 Eclipse IDE的安装与配置18
1.6使用Spark Shell开发运行Spark程序19
1.7本章小结20
第2章Spark编程模型21
2.1 RDD弹性分布式数据集21
2.1.1 RDD简介22
2.1.2深入理解RDD22
2.1.3 RDD特性总结24
2.2 Spark程序模型25
2.3 Spark算子26
2.3.1算子简介26
2.3.2 Value型Transmation算子27
2.3.3 Key-Value型Transmation算子32
2.3.4 Action算子34
2.4本章小结37
第3章Spark机制原理38
3.1 Spark应用执行机制分析38
3.1.1 Spark应用的基本概念38
3.1.2 Spark应用执行机制概要39
3.1.3应用提交与执行41
3.2 Spark调度机制42
3.2.1 Application的调度42
3.2.2 job的调度43
3.2.3 stage(调度阶段)和TasksetManager的调度46
3.2.4 task的调度50
3.3 Spark存储与I/O52
3.3.1 Spark存储系统概览52
3.3.2 BIockManager中的通信54
3.4 Spark通信机制54
3.4.1分布式通信方式54
3.4.2通信框架AKKA56
3.4.3 Client、 Master和Worker之间的通信57
3.5容错机制及依赖65
3.5.1 Lineage(血统)机制66
3.5.2 Checkpoint(检查点)机制68
3.6 Shuffle机制70
3.6.1什么是Shuffle70
3.6.2 Shuffle历史及细节72
3.7本章小结78
第4章 深入Spark内核79
4.1 Spark代码布局79
4.1.1 Spark源码布局简介79
4.1.2 Spark Core内模块概述80
4.1.3 Spark Core外模块概述80
4.2 Spark执行主线[RDD → Task]剖析80
4.2.1从RDD到DAGScheduler81
4.2.2从DAGScheduler到TaskScheduler82
4.2.3从TaskScheduler到Worker节点88
4.3 Client、Master和Worker交互过程剖析89
4.3.1交互流程概览89
4.3.2交互过程调用90
4.4 Shuffle触发96
4.4.1触发Shuffle Write96
4.4.2触发Shuffle Read98
4.5 Spark存储策略100
4.5.1 CacheManager职能101
4.5.2 BlockManager职能105
4.5.3 DiskStore与DiskBlock-Manager类113
4.5.4 Memory Store类114
4.6本章小结117
第5章Spark on YARN118
5.1 YARN概述118
5.2 Spark on YARN的部署模式121
5.3 Spark on YARN的配置重点125
5.3.1 YARN的自身内存配置126
5.3.2 Spark on YARN的重要配置127
5.4本章小结128
第6章BDAS生态主要模块129
6.1 Spark SQL129
6.1.1 Spark SQL概述130
6.1.2 Spark SQL的架构分析132
6.1.3 Spark SQL如何使用135
6.2 Spark Streaming140
6.2.1 Spark Streaming概述140
6.2.2 Spark Streaming的架构分析143
6.2.3 Spark Streaming编程模型145
6.2.4数据源Data Source147
6.2.5 DStream操作149
6.3 SparkR154
6.3.1 R语言概述154
6.3.2 SparkR简介155
6.3.3 DataFrame创建156
6.3.4 DataFrame操作158
6.4 MLlib on Spark162
6.4.1机器学习概述162
6.4.2机器学习的研究方向与问题164
6.4.3机器学习的常见算法167
6.4.4 MLlib概述210
6.4.5 MLlib架构212
6.4.6 MLlib使用实例——电影推荐214
6.5本章小结220
第7章Spark调优221
7.1参数配置221
7.2调优技巧223
7.2.1序列化优化223
7.2.2内存优化224
7.2.3数据本地化228
7.2.4其他优化考虑229
7.3实践中常见调优问题及思考230
7.4本章小结231
第8章Spark 2.0.0232
8.1功能变化232
8.1.1删除的功能232
8.1.2 Spark中发生变化的行为233
8.1.3不再建议使用的功能233
8.2 Core以及Spark SQL的改变234
8.2.1编程API234
8.2.2多说些关于SparkSession234
8.2.3 SQL236
8.3 MLlib237
8.3.1新功能237
8.3.2速度/扩展性237
8.4 SparkR238
8.5 Streaming238
8.5.1 初识结构化Streaming238
8.5.2结构化Streaming编程模型239
8.5.3结果输出240
8.6依赖、打包242
8.7本章小结242