图书介绍
Hadoop+Spark大数据巨量分析与机器学习整合开发实战PDF|Epub|txt|kindle电子书版本网盘下载
- 林大贵著 著
- 出版社: 北京:清华大学出版社
- ISBN:7302453752
- 出版时间:2017
- 标注页数:425页
- 文件大小:79MB
- 文件页数:444页
- 主题词:
PDF下载
下载说明
Hadoop+Spark大数据巨量分析与机器学习整合开发实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据与机器学习1
1.1 大数据定义2
1.2 Hadoop简介2
1.3 Hadoop HDFS分布式文件系统3
1.4 Hadoop MapReduce的介绍5
1.5 Spark的介绍6
1.6 机器学习的介绍8
第2章 VirtualBox虚拟机软件的安装11
2.1 VirtualBox的下载和安装12
2.2 设置VirtualBox语言版本16
2.3 设置VirtualBox存储文件夹17
2.4 在VirtualBox创建虚拟机18
第3章 Ubuntu Linux操作系统的安装23
3.1 下载安装Ubuntu的光盘文件24
3.2 在Virtual设置Ubuntu虚拟光盘文件26
3.3 开始安装Ubuntu28
3.4 启动Ubuntu33
3.5 安装增强功能34
3.6 设置默认输入法38
3.7 设置“终端”程序40
3.8 设置“终端”程序为白底黑字42
3.9 设置共享剪贴板43
第4章 Hadoop Single Node Cluster的安装46
4.1 安装JDK47
4.2 设置SSH无密码登录50
4.3 下载安装Hadoop53
4.4 设置Hadoop环境变量56
4.5 修改Hadoop配置设置文件58
4.6 创建并格式化HDFS目录62
4.7 启动Hadoop63
4.8 打开Hadoop ResourceManager Web界面66
4.9 NameNode HDFS Web界面67
第5章 Hadoop Multi Node Cluster的安装69
5.1 把Single Node Cluster复制到data171
5.2 设置VirtualBox网卡73
5.3 设置data1服务器76
5.4 复制data1服务器到data2、data3、master84
5.5 设置data2、data3服务器87
5.6 设置master服务器91
5.7 master连接到data1、data2、data3创建HDFS目录94
5.8 创建并格式化NameNode HDFS目录98
5.9 启动Hadoop Multi Node Cluster99
5.10 打开Hadoop ResourceManager Web界面102
5.11 打开NameNode Web界面103
第6章 Hadoop HDFS命令104
6.1 启动Hadoop Multi-Node Cluster105
6.2 创建与查看HDFS目录107
6.3 从本地计算机复制文件到HDFS109
6.4 将HDFS上的文件复制到本地计算机114
6.5 复制与删除HDFS文件116
6.6 在Hadoop HDFS Web用户界面浏览HDFS118
第7章 Hadoop MapReduce122
7.1 介绍wordCount.Java123
7.2 编辑wordCount.Java124
7.3 编译wordCount.Java127
7.4 创建测试文本文件129
7.5 运行wordCount.Java130
7.6 查看运行结果131
7.7 Hadoop MapReduce的缺点132
第8章 Spark的安装与介绍133
8.1 Spark的Cluster模式架构图134
8.2 Scala的介绍与安装135
8.3 安装Spark138
8.4 启动spark-shell交互界面141
8.5 设置spark-shell显示信息142
8.6 启动Hadoop144
8.7 本地运行spark-shell程序145
8.8 在Hadoop YARN运行spark-shell147
8.9 构建Spark Standalone Cluster执行环境149
8.10 在Spark Standalone运行spark-shell155
第9章 Spark RDD159
9.1 RDD的特性160
9.2 基本RDD“转换”运算161
9.3 多个RDD“转换”运算167
9.4 基本“动作”运算169
9.5 RDD Key-Value基本“转换”运算171
9.6 多个RDD Key-Value“转换”运算175
9.7 Key-Value“动作”运算178
9.8 Broadcast广播变量181
9.9 accumulator累加器184
9.10 RDD Persistence持久化186
9.11 使用Spark创建WordCount188
9.12 Spark WordCount详细解说191
第10章 Spark的集成开发环境195
10.1 下载与安装eclipse Scala IDE197
10.2 下载项目所需要的Library201
10.3 启动eclipse205
10.4 创建新的Spark项目206
10.5 设置项目链接库210
10.6 新建scala程序211
10.7 创建WordCount测试文本文件213
10.8 创建WordCount.scala213
10.9 编译WordCount.scala程序215
10.10 运行WordCount.scala程序217
10.11 导出jar文件220
10.12 spark-submit的详细介绍223
10.13 在本地local模式运行WordCount程序224
10.14 在Hadoop yarn-client运行WordCount程序226
10.15 在Spark Standalone Cluster上运行WordCount程序230
10.16 本书范例程序的安装说明231
第11章 创建推荐引擎236
11.1 推荐算法介绍237
11.2 “推荐引擎”大数据分析使用场景237
11.3 ALS推荐算法的介绍238
11.4 ml-100k推荐数据的下载与介绍240
11.5 使用spark-shell导入ml-100k数据242
11.6 查看导入的数据244
11.7 使用ALS.train进行训练247
11.8 使用模型进行推荐250
11.9 显示推荐的电影名称252
11.10 创建Recommend项目255
11.11 Recommend.scala程序代码257
11.12 创建PrepareData()数据准备259
11.13 recommend()推荐程序代码261
11.14 运行Recommend.scala263
11.15 创建AlsEvaluation.scala调校推荐引擎参数266
11.16 创建PrepareData()数据准备269
11.17 进行训练评估270
11.18 运行AlsEvaluation279
11.19 修改Recommend.scala为最佳参数组合281
第12章 StumbleUpon数据集282
12.1 StumbleUpon数据集简介283
12.2 下载StumbleUpon数据285
12.3 用LibreOffice Calc电子表格查看train.tsv288
12.4 二元分类算法291
第13章 决策树二元分类292
13.1 决策树的介绍293
13.2 创建Classification项目294
13.3 开始输入RunDecisionTreeBinary.scala程序296
13.4 数据准备阶段298
13.5 训练评估阶段303
13.6 预测阶段308
13.7 运行RunDecisionTreeBinary.scala311
13.6 修改RunDecisionTreeBinary调校训练参数313
13.7 运行RunDecisionTreeBinary进行参数调校320
13.8 运行RunDecisionTreeBinary不进行参数调校323
第14章 逻辑回归二元分类326
14.1 逻辑回归分析介绍327
14.2 RunLogisticRegression WithSGDBinary.scala程序说明328
14.3 运行RunLogisticRegression WithSGDBinary.scala进行参数调校331
14.4 运行RunLogisticRegression WithSGDBinary.scala不进行参数调校335
第15章 支持向量机SVM二元分类337
15.1 支持向量机SVM算法的基本概念338
15.2 RunSVMWithSGDBinary.scala程序说明338
15.3 运行SVMWithSGD.scala进行参数调校341
15.4 运行SVMWithSGD.scala不进行参数调校344
第16章 朴素贝叶斯二元分类346
16.1 朴素贝叶斯分析原理的介绍347
16.2 RunNaiveBayesBinary.scala程序说明348
16.3 运行NaiveBayes.scala进行参数调校351
16.4 运行NaiveBayes.scala不进行参数调校353
第17章 决策树多元分类355
17.1 “森林覆盖植被”大数据问题分析场景356
17.2 UCI Covertype数据集介绍357
17.3 下载与查看数据359
17.4 创建RunDecisionTreeMulti.scala361
17.5 修改RunDecisionTreeMulti.scala程序362
17.6 运行RunDecisionTreeMulti.scala进行参数调校367
17.7 运行RunDecisionTreeMulti.scala不进行参数调校371
第18章 决策树回归分析373
18.1 Bike Sharing大数据问题分析374
18.2 Bike Sharing数据集375
18.3 下载与查看数据375
18.4 创建RunDecisionTreeRegression.scala378
18.5 修改RunDecisionTreeRegression.scala380
18.6 运行RunDecisionTreeRegression.scala进行参数调校389
18.7 运行RunDecisionTreeRegression.scala不进行参数调校392
第19章 使用Apache Zeppelin数据可视化394
19.1 Apache Zeppelin简介395
19.2 安装Apache Zeppelin395
19.3 启动Apache Zeppelin399
19.4 创建新的Notebook402
19.5 使用Zeppelin运行Shell命令403
19.6 创建临时表UserTable406
19.7 使用Zeppelin运行年龄统计Spark SQL407
19.8 使用Zeppelin运行性别统计Spark SQL409
19.9 按照职业统计410
19.10 Spark SQL加入文本框输入参数412
19.11 加入选项参数414
19.12 同时显示多个统计字段416
19.13 设置工具栏419
19.14 设置段落标题420
19.15 设置Paragraph段落的宽度422
19.16 设置显示模式423