图书介绍
Spark MLlib机器学习实践PDF|Epub|txt|kindle电子书版本网盘下载
![Spark MLlib机器学习实践](https://www.shukui.net/cover/53/30088047.jpg)
- 王晓华著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302420422
- 出版时间:2015
- 标注页数:176页
- 文件大小:37MB
- 文件页数:190页
- 主题词:数据处理软件-机器学习
PDF下载
下载说明
Spark MLlib机器学习实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 星星之火1
1.1 大数据时代1
1.2 大数据分析时代2
1.3 简单、优雅、有效——这就是Spark3
1.4 核心——MLlib4
1.5 星星之火,可以燎原6
1.6 小结6
第2章 Spark安装和开发环境配置7
2.1 Windows单机模式Spark安装和配置7
2.1.1 Windows 7安装Java7
2.1.2 Windows 7安装Scala10
2.1.3 Intellij IDE下载和安装10
2.1.4 Intellij IDE中Scala插件的安装11
2.1.5 Spark单机版安装14
2.2 经典的WordCount15
2.2.1 Spark实现WordCount15
2.2.2 MapReduce实现WordCount17
2.3 小结20
第3章 RDD详解21
3.1 RDD是什么21
3.1.1 RDD名称的秘密21
3.1.2 RDD特性22
3.1.3 与其他分布式共享内存的区别23
3.1.4 RDD缺陷23
3.2 RDD工作原理24
3.2.1 RDD工作原理24
3.2.2 RDD的相互依赖24
3.3 RDD应用API详解25
3.3.1 使用aggregate方法对给定的数据集进行方法设定25
3.3.2 提前计算的cache方法28
3.3.3 笛卡尔操作的cartesian方法29
3.3.4 分片存储的coalesce方法30
3.3.5 以value计算的countByValue方法31
3.3.6 以key计算的countByKey方法31
3.3.7 除去数据集中重复项的distinct方法32
3.3.8 过滤数据的filter方法33
3.3.9 以行为单位操作数据的flatMap方法33
3.3.10 以单个数据为目标进行操作的map方法34
3.3.11 分组数据的groupBy方法34
3.3.12 生成键值对的keyBy方法35
3.3.13 同时对两个数据进行处理的reduce方法36
3.3.14 对数据进行重新排序的sortBy方法37
3.3.15 合并压缩的zip方法38
3.4 小结39
第4章 MLlib基本概念40
4.1 MLlib基本数据类型40
4.1.1 多种数据类型40
4.1.2 从本地向量集起步41
4.1.3 向量标签的使用42
4.1.4 本地矩阵的使用44
4.1.5 分布式矩阵的使用44
4.2 MLlib数理统计基本概念48
4.2.1 基本统计量48
4.2.2 统计量基本数据48
4.2.3 距离计算49
4.2.4 两组数据相关系数计算50
4.2.5 分层抽样53
4.2.6 假设检验54
4.2.7 随机数55
4.3 小结56
第5章 协同过滤算法57
5.1 协同过滤57
5.1.1 协同过滤概述57
5.1.2 基于用户的推荐58
5.1.3 基于物品的推荐59
5.1.4 协同过滤算法的不足60
5.2 相似度度量60
5.2.1 基于欧几里得距离的相似度计算60
5.2.2 基于余弦角度的相似度计算61
5.2.3 欧几里得相似度与余弦相似度的比较62
5.2.4 第一个例子——余弦相似度实战62
5.3 MLlib中的交替最小二乘法(ALS算法)65
5.3.1 最小二乘法(LS算法)详解66
5.3.2 MLlib中交替最小二乘法(ALS算法)详解66
5.3.3 ALS算法实战68
5.4 小结70
第6章 MLlib线性回归理论与实战71
6.1 随机梯度下降算法详解71
6.1.1 道士下山的故事72
6.1.2 随机梯度下降算法的理论基础73
6.1.3 随机梯度下降算法实战73
6.2 MLlib回归的过拟合74
6.2.1 过拟合产生的原因75
6.2.2 lasso回归与岭回归76
6.3 MLlib线性回归实战76
6.3.1 MLlib线性回归基本准备76
6.3.2 MLlib线性回归实战:商品价格与消费者收入之间的关系78
6.3.3 对拟合曲线的验证80
6.4 小结82
第7章 MLlib分类实战83
7.1 逻辑回归详解83
7.1.1 逻辑回归不是回归算法83
7.1.2 逻辑回归的数学基础84
7.1.3 一元逻辑回归示例85
7.1.4 多元逻辑回归示例86
7.1.5 MLlib逻辑回归验证88
7.1.6 MLlib逻辑回归实例:胃癌的转移判断89
7.2 支持向量机详解91
7.2.1 三角还是圆91
7.2.2 支持向量机的数学基础93
7.2.3 支持向量机使用示例94
7.2.4 使用支持向量机分析胃癌转移95
7.3 朴素贝叶斯详解96
7.3.1 穿裤子的男生or女生96
7.3.2 贝叶斯定理的数学基础和意义97
7.3.3 朴素贝叶斯定理98
7.3.4 MLlib朴素贝叶斯使用示例99
7.3.5 MLlib朴素贝叶斯实战:“僵尸粉”的鉴定100
7.4 小结102
第8章 决策树与保序回归103
8.1 决策树详解103
8.1.1 水晶球的秘密104
8.1.2 决策树的算法基础:信息熵104
8.1.3 决策树的算法基础——ID3算法106
8.1.4 MLlib中决策树的构建107
8.1.5 MLlib中决策树示例108
8.1.6 随机雨林与梯度提升算法(GBT)110
8.2 保序回归详解112
8.2.1 何为保序回归113
8.2.2 保序回归示例113
8.3 小结114
第9章 MLlib中聚类详解115
9.1 聚类与分类115
9.1.1 什么是分类115
9.1.2 什么是聚类116
9.2 MLlib中的Kmeans算法116
9.2.1 什么是Kmeans算法116
9.2.2 MLlib中Kmeans算法示例118
9.2.3 Kmeans算法中细节的讨论119
9.3 高斯混合聚类120
9.3.1 从高斯分布聚类起步120
9.3.2 混合高斯聚类122
9.3.3 MLlib高斯混合模型使用示例122
9.4 快速迭代聚类123
9.4.1 快速迭代聚类理论基础123
9.4.2 快速迭代聚类示例124
9.5 小结125
第10章 MLlib中关联规则126
10.1 Apriori频繁项集算法126
10.1.1 啤酒与尿布126
10.1.2 经典的Apriori算法127
10.1.3 Apriori算法示例129
10.2 FP-growth算法130
10.2.1 Apriori算法的局限性130
10.2.2 FP-growth算法130
10.2.3 FP树示例133
10.3 小结134
第11章 数据降维135
11.1 奇异值分解(SVD)135
11.1.1 行矩阵(RowMatrix)详解135
11.1.2 奇异值分解算法基础136
11.1.3 MLlib中奇异值分解示例137
11.2 主成分分析(PCA)138
11.2.1 主成分分析(PCA)的定义139
11.2.2 主成分分析(PCA)的数学基础139
11.2.3 MLlib中主成分分析(PCA)示例140
11.3 小结141
第12章 特征提取和转换142
12.1 TF-IDF142
12.1.1 如何查找所要的新闻142
12.1.2 TF-IDF算法的数学计算143
12.1.3 MLlib中TF-IDF示例144
12.2 词向量化工具145
12.2.1 词向量化基础145
12.2.2 词向量化使用示例146
12.3 基于卡方检验的特征选择147
12.3.1 “吃货”的苦恼147
12.3.2 MLlib中基于卡方检验的特征选择示例148
12.4 小结149
第13章 MLlib实战演练——鸢尾花分析151
13.1 建模说明151
13.1.1 数据的描述与分析目标151
13.1.2 建模说明153
13.2 数据预处理和分析156
13.2.1 微观分析——均值与方差的对比分析156
13.2.2 宏观分析——不同种类特性的长度计算159
13.2.3 去除重复项——相关系数的确定161
13.3 长与宽之间的关系——数据集的回归分析165
13.3.1 使用线性回归分析长与宽之间的关系165
13.3.2 使用逻辑回归分析长与宽之间的关系168
13.4 使用分类和聚类对鸢尾花数据集进行处理169
13.4.1 使用聚类分析对数据集进行聚类处理169
13.4.2 使用分类分析对数据集进行分类处理172
13.5 最终的判定——决策树测试173
13.5.1 决定数据集的归类——决策树173
13.5.2 决定数据集归类的分布式方法——随机雨林175
13.6 小结176