图书介绍
Spark GraphX实战PDF|Epub|txt|kindle电子书版本网盘下载
![Spark GraphX实战](https://www.shukui.net/cover/35/30453993.jpg)
- (美)迈克尔 S.马拉克(Michael S.Malak),罗宾·伊斯特(Robin East) 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121310430
- 出版时间:2017
- 标注页数:278页
- 文件大小:34MB
- 文件页数:298页
- 主题词:数据处理软件
PDF下载
下载说明
Spark GraphX实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1部分 Spark和图3
1 两项重要的技术:Spark和图3
1.1 Spark:超越Hadoop MapReduce4
1.1.1 模糊的大数据定义6
1.1.2 Hadoop:Spark之前的世界6
1.1.3 Spark:内存中的MapReduce处理7
1.2 图:挖掘关系中的含义9
1.2.1 图的应用11
1.2.2 图数据的类型12
1.2.3 普通的关系型数据库在图方面的不足14
1.3 把快如闪电的图处理放到一起:Spark GraphX14
1.3.1 图的属性:增加丰富性15
1.3.2 图的分区:当图变为大数据集时17
1.3.3 GraphX允许选择:图并行还是数据并行19
1.3.4 GraphX支持的各种数据处理方式19
1.3.5 GraphX与其他图系统21
1.3.6 图存储:分布式文件存储与图数据库23
1.4 小结23
2 GraphX快速入门24
2.1 准备开始并准备数据24
2.2 用Spark Shell做GraphX交互式查询26
2.3 PageRank算法示例29
2.4 小结31
3 基础知识32
3.1 Scala——Spark的原生编程语言33
3.1.1 Scala的理念:简洁和表现力33
3.1.2 函数式编程34
3.1.3 类型推断38
3.1.4 类的声明39
3.1.5 map和reduce41
3.1.6 一切皆是“函数”42
3.1.7 与Java的互操作性44
3.2 Spark44
3.2.1 分布式内存数据:RDD44
3.2.2 延迟求值47
3.2.3 集群要求和术语解释49
3.2.4 序列化50
3.2.5 常用的RDD操作50
3.2.6 Spark和SBT初步54
3.3 图术语解释55
3.3.1 基础55
3.3.2 RDF图和属性图58
3.3.3 邻接矩阵59
3.3.4 图查询系统59
3.4 小结60
第2部分 连接顶点65
4 GraphX基础65
4.1 顶点对象与边对象65
4.2 mapping操作71
4.2.1 简单的图转换71
4.2.2 Map/Reduce73
4.2.3 迭代的Map/Reduce77
4.3 序列化/反序列化79
4.3.1 读/写二进制格式的数据79
4.3.2 JSON格式81
4.3.3 Gephi可视化软件的GEXF格式85
4.4 图生成86
4.4.1 确定的图86
4.4.2 随机图88
4.5 Pregel API90
4.6 小结96
5 内置图算法97
5.1 找出重要的图节点:网页排名98
5.1.1 PageRank算法解释98
5.1.2 在GraphX中使用PageRank99
5.1.3 个性化的PageRank102
5.2 衡量连通性:三角形数103
5.2.1 三角形关系的用法103
5.2.2 Slashdot朋友和反对者的用户关系示例104
5.3 查找最少的跳跃:最短路径106
5.4 找到孤岛人群:连通组件107
5.4.1 预测社交圈子108
5.5 受欢迎的回馈:增强连通组件114
5.6 社区发现算法:标签传播115
5.7 小结117
6 其他有用的图算法118
6.1 你自己的GPS:有权值的最短路径119
6.2 旅行推销员问题:贪心算法124
6.3 路径规划工具:最小生成树127
6.3.1 基于Word2Vec的推导分类法和最小生成树131
6.4 小结135
7 机器学习136
7.1 监督、无监督、半监督学习137
7.2 影片推荐:SVDPlusPlus139
7.2.1 公式解释146
7.3 在MLlib中使用GraphX146
7.3.1 主题聚类:隐含狄利克雷分布147
7.3.2 垃圾信息检测:LogisticRegressionWithSGD156
7.3.3 使用幂迭代聚类进行图像分割(计算机视觉)160
7.4 穷人(简化版)的训练数据:基于图的半监督学习165
7.4.1 K近邻图构建168
7.4.2 半监督学习标签传播算法175
7.5 小结180
第3部分 更多内容183
8 缺失的算法183
8.1 缺失的基本图操作184
8.1.1 通用意义上的子图184
8.1.2 图合并185
8.2 读取RDF图文件189
8.2.1 顶点匹配以及图构建189
8.2.2 使用IndexedRDD和RDD HashMap来提升性能191
8.3 穷人(简化版)的图同构:找到Wikipedia缺失的信息197
8.4 全局聚类系数:连通性比较202
8.5 小结205
9 性能和监控207
9.1 监控Spark应用208
9.1.1 Spark如何运行应用208
9.1.2 用Spark监控来了解你的应用的运行时信息211
9.1.3 history server221
9.2 Spark配置223
9.2.1 充分利用全部CPU资源226
9.3 Spark性能调优227
9.3.1 用缓存和持久化来加速Spark227
9.3.2 checkpointing230
9.3.3 通过序列化降低内存压力232
9.4 图分区233
9.5 小结235
10 更多语言以及工具237
10.1 在GraphX中使用除Scala外的其他语言238
10.1.1 在GraphX中使用Java 7238
10.1.2 在GraphX中使用Java 8245
10.1.3 未来GraphX是否会支持Python或者R245
10.2 其他可视化工具:Apache Zeppelin和d3.js245
10.3 类似一个数据库:Spark Job Server248
10.3.1 示例:查询Slashdot好友的分离程度250
10.3.2 更多使用Spark Job Server的例子253
10.4 通过GraphFrames在Spark的图上使用SQL254
10.4.1 GraphFrames和GraphX的互操作性255
10.4.2 使用SQL进行便捷、高性能的操作257
10.4.3 使用Cypher语言的子集来进行顶点搜索258
10.4.4 稍微复杂一些的YAGO图同构搜索260
10.5 小结264
附录A 安装Spark266
附录B Gephi可视化软件271
附录C 更多资源275
附录D 本书中的Scala小贴士278