图书介绍
Hadoop大数据技术基础及应用PDF|Epub|txt|kindle电子书版本网盘下载
![Hadoop大数据技术基础及应用](https://www.shukui.net/cover/26/32407248.jpg)
- 大讲台大数据研习社编著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111620167
- 出版时间:2019
- 标注页数:339页
- 文件大小:50MB
- 文件页数:354页
- 主题词:数据处理软件-高等学校-教材
PDF下载
下载说明
Hadoop大数据技术基础及应用PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 Hadoop概述1
1.1Hadoop的前世今生1
1.1.1 Hadoop是什么1
1.1.2项目起源1
1.1.3发展历程2
1.1.4名字起源2
1.2 Hadoop生态系统简介2
1.3 Hadoop的优势及应用领域4
1.3.1 Hadoop的优势4
1.3.2 Hadoop的应用领域4
1.4 Hadoop与云计算5
1.4.1云计算的概念及特点5
1.4.2 Hadoop与云计算之间的关系6
1.5 Hadoop与Spark6
1.5.1 Spark的概念及特点6
1.5.2 Hadoop与Spark之间的关系7
1.6 Hadoop与传统关系型数据库8
1.6.1传统关系型数据库的概念及特点8
1.6.2 Hadoop与传统数据库之间的关系8
本章 小结9
本章 习题9
第2章 Hadoop开发及运行环境搭建10
2.1Hadoop集群环境搭建概述10
2.1.1虚拟机的安装部署10
2.1.2 Linux操作系统的安装部署11
2.1.3 Hadoop的运行模式11
2.2 Hadoop伪分布式集群环境搭建12
2.2.1关闭防火墙和禁用SELINUX12
2.2.2配置hostname与IP地址之间的对应关系13
2.2.3创建用户和用户组14
2.2.4配置SSH免密码登录15
2.2.5 JDK安装17
2.2.6 Hadoop伪分布式集群的安装配置19
2.2.7测试运行Hadoop集群24
2.3搭建MyEclipse开发环境26
2.3.1 JDK的安装配置26
2.3.2安装MyEclipse28
2.3.3在MyEclipse上安装Hadoop插件28
2.3.4 Hadoop环境配置31
2.3.5构建MapReduce项目32
本章 小结38
本章 习题38
第3章 HDFS分布式文件系统39
3.1HDFS体系结构详解39
3.1.1什么是文件系统39
3.1.2什么是分布式文件系统39
3.1.3 HDFS分布式文件系统概述40
3.2 HDFS的Shell操作50
3.2.1 HDFS基本Shell操作命令50
3.2.2 Hadoop管理员常用的Shell操作命令52
3.3 HDFS的Java API操作53
3.3.1获取HDFS文件系统53
3.3.2文件/目录的创建与删除53
3.3.3获取文件54
3.3.4上传/下载文件55
3.3.5获取HDFS集群节点信息55
3.4 HDFS的新特性——HA56
3.4.1HA机制产生背景56
3.4.2 HDFS的HA机制56
3.4.3 HDFS的HA架构57
3.5实战:小文件合并程序的编写及运行58
本章 小结62
本章 习题62
第4章 MapReduce分布式计算框架63
4.1初识MapReduce63
4.1.1 MapReduce概述63
4.1.2 MapReduce的基本设计思想64
4.1.3 MapReduce的优缺点65
4.2 MapReduce编程模型66
4.2.1 MapReduce编程模型简介66
4.2.2深入剖析MapReduce编程模型——以WordCount为例68
4.3 MapReduce运行框架72
4.3.1 MapReduce架构72
4.3.2 MapReduce的运行机制75
4.3.3 MapReduce内部逻辑77
4.3.4 MapReduce数据本地性78
4.3.5 MapReduce框架的容错性80
4.3.6 MapReduce资源组织方式81
4.3.7 MapReduce的高级特性及应用81
4.4实战:统计相同字母组成的不同单词81
本章 小结83
本章 习题83
第5章 Hadoop的文件I/O84
5.1Hadoop文件I/O概述84
5.2 Hadoop文件I/O的数据完整性85
5.2.1 Hadoop文件I/O的数据完整性的概念85
5.2.2 Hadoop的数据校验方式86
5.3 Hadoop文件的序列化90
5.3.1什么是序列化90
5.3.2为什么要序列化90
5.3.3为什么不用Java的序列化90
5.3.4 Hadoop对序列化机制的要求90
5.3.5 Hadoop中定义的序列化相关接口91
5.4 Hadoop数据的解压缩94
5.4.1解压缩简介94
5.4.2 Hadoop常见压缩格式及特点94
5.4.3常见压缩的使用方式95
5.5基于文件的数据结构96
5.6实战:Hadoop源码编译及Snappy压缩的配置使用101
本章 小结103
本章 习题104
第6章 YARN资源管理器105
6.1初识YARN105
6.1.1 YARN是什么105
6.1.2 YARN的作用106
6.2 YARN基本架构106
6.3 YARN的工作原理107
6.3.1 YARN上运行的应用程序107
6.3.2 YARN的工作流程108
6.3.3 MapReduce On YARN的工作流程109
6.4 YARN的容错性110
6.5 YARN HA110
本章 小结111
本章 习题112
第7章 Zookeeper分布式协调服务113
7.1 Zookeeper概述113
7.1.1 ZooKeeper是什么113
7.1.2 Zookeeper的特点114
7.1.3 Zookeeper的基本架构114
7.1.4 Zookeeper的工作原理115
7.2 Zookeeper安装配置115
7.3 Zookeeper服务116
7.3.1数据模型116
7.3.2基本操作118
7.3.3实现方式118
7.4 Zookeeper的应用119
7.4.1数据发布与订阅119
7.4.2负载均衡119
7.4.3命名服务120
7.4.4分布式通知/协调120
7.4.5配置管理120
7.4.6集群管理120
7.4.7分布式锁121
7.4.8分布式队列121
7.5实战:模拟实现集群配置信息的订阅与发布122
本章 小结127
本章 习题127
第8章 Hadoop分布式集群搭建与管理128
8.1准备物理集群128
8.1.1物理集群搭建方式128
8.1.2虚拟机的准备128
8.2集群规划132
8.2.1主机规划132
8.2.2软件规划132
8.2.3用户规划133
8.2.4目录规划133
8.3集群安装前的准备133
8.3.1时钟同步133
8.3.2 hosts文件检查134
8.3.3禁用防火墙134
8.3.4配置SSH免密码通信134
8.3.5脚本工具的使用135
8.4 Hadoop相关软件安装138
8.4.1JDK的安装138
8.4.2 Zookeeper的安装139
8.5 Hadoop集群环境的搭建140
8.5.1 Hadoop软件的安装140
8.5.2 Hadoop配置及使用HDFS141
8.5.3 Hadoop配置及使用YARN146
8.6集群启停149
8.6.1启动集群149
8.6.2关闭集群150
8.7主机的维护操作151
8.7.1 Active NameNode维护操作151
8.7.2 Standby NameNode维护操作151
8.7.3 DataNode维护操作151
8.7.4 Active ResourceManager维护操作151
8.7.5 Standby ResourceManager维护操作152
8.7.6 NodeManager维护操作152
8.8集群节点动态增加与删除152
8.8.1增加DataNode152
8.8.2删除DataNode153
8.8.3增删NodeManager153
8.9集群运维技巧153
8.9.1查看日志153
8.9.2清理临时文件154
本章 小结154
本章 习题154
第9章 Hive数据仓库155
9.1初识Hive155
9.1.1 Hive是什么155
9.1.2 Hive产生的背景155
9.1.3什么是数据仓库156
9.1.4 Hive在Hadoop生态系统中的位置156
9.1.5 Hive和Hadoop的关系157
9.1.6 Hive和普通关系数据库的异同157
9.2 Hive的原理及架构158
9.2.1 Hive的设计原理158
9.2.2 Hive的体系架构159
9.2.3 Hive的运行机制160
9.2.4 Hive编译器的运行机制161
9.2.5 Hive的优缺点161
9.2.6 Hive的数据类型161
9.2.7 Hive的数据存储162
9.3 Hive的安装部署163
9.3.1安装MySQL163
9.3.2安装Hive164
9.4 Hive数据库的相关操作165
9.5 Hive数据表的相关操作171
9.5.1常见数据表类型171
9.5.2操作内部表172
9.5.3操作外部表177
9.5.4操作分区表177
9.5.5操作桶表180
9.6 Hive的数据操作语言DML182
9.6.1通过LOAD语句向表中装载数据182
9.6.2通过INSERT语句向表中插入数据183
9.6.3利用动态分区向表中插入数据184
9.6.4通过CTAS加载数据186
9.6.5导出数据186
9.7 Hive的数据查询语言DQL187
9.7.1 SELECT …FROM语句188
9.7.2 WHERE语句189
9.7.3数据的递归查询189
9.7.4 GROUP BY语句和HAVING语句191
9.7.5 ORDER BY语句和SORT BY语句192
9.7.6 DISTRIBUTE BY语句194
9.7.7 CLUSTER BY语句195
9.8实战:通过Hive分析股票走势规律195
本章 小结199
本章 习题199
第10章 HBase分布式数据库200
10.1 HBase概述200
10.1.1 HBase是什么200
10.1.2 Hbase的特点200
10.2 HBase数据模型201
10.2.1 Hbase逻辑模型201
10.2.2 HBase数据模型的核心概念202
10.2.3 Hbase的物理模型203
10.2.4 Hbase的基本架构204
10.3 HBase的核心概念206
10.3.1预写日志206
10.3.2 Region定位206
10.3.3写入流程208
10.3.4查询流程209
10.3.5容错性211
10.4 HBase集群安装部署211
10.4.1集群规划211
10.4.2 HBase集群安装212
10.5 HBase Shell工具217
10.5.1命令分类217
10.5.2基本操作218
10.6 HBase Java客户端220
10.6.1客户端配置220
10.6.2创建表221
10.6.3删除表222
10.6.4插入数据223
10.6.5查询数据223
10.6.6删除数据225
10.6.7过滤查询225
10.7实战:MapReduce批量操作HBase226
本章 小结230
本章 习题230
第11章 Hadoop生态系统常用开发技术231
11.1 Sqoop数据导入导出工具231
11.1.1 Sqoop概述231
11.1.2 Sqoop的优势232
11.1.3 Sqoop的架构与工作机制232
11.1.4 Sqoop Import流程232
11.1.5 Sqoop Export流程233
11.1.6 Sqoop的安装配置234
11.1.7 Sqoop实战236
11.2 Flume日志采集系统238
11.2.1 Flume概述238
11.2.2 Flume NG的架构及工作机制238
11.2.3 Flume NG的核心功能模块239
11.2.4 Flume NG的数据可靠性242
11.2.5 Flume NG的应用场景242
11.2.6 Flume NG的安装配置244
11.2.7 Flume NG实战246
11.3 Kafka分布式消息系统248
11.3.1 Kafka概述248
11.3.2 Kafka的特点248
11.3.3 Kafka的架构248
11.3.4 Kafka的相关服务249
11.3.5 Kafka的安装配置251
11.3.6 Kafka Shell操作254
11.3.7 Kafka客户端操作256
11.4 ElasticSearch全文检索工具259
11.4.1 ElasticSearch概述259
11.4.2 ElasticSearch的特点259
11.4.3 ElasticSearch的架构260
11.4.4 ElasticSearch的相关服务261
11.4.5 ElasticSearch的索引模块262
11.4.6 ElasticSearch的安装配置266
11.4.7 ElasticSearch RESTful API271
11.4.8 ElasticSearch Java API280
11.5 Storm流式计算框架285
11.5.1 Storm概述285
11.5.2 Storm的特点285
11.5.3 Storm的架构285
11.5.4 Storm工作流286
11.5.5 Storm数据流287
11.5.6 Storm集群的安装配置288
11.5.7实战:统计网站PV和UV292
11.6 Spark内存计算框架299
11.6.1 Spark概述299
11.6.2 Spark的特点299
11.6.3弹性分布式数据集RDD300
11.6.4 Spark架构原理301
11.6.5算子功能及分类303
11.6.6 Spark集群的安装配置304
11.6.7实战:搜狗搜索数据统计308
本章 小结310
本章 习题310
第12章 项目实践:广电收视率数据统计分析312
12.1项目背景312
12.2项目需求312
12.3项目分析313
12.3.1认识数据源313
12.3.2项目各个收视指标的定义及计算方法313
12.4项目开发流程315
12.4.1 Flume数据收集316
12.4.2 MapReduce数据清洗及分析317
12.4.3 Hive数据统计分析319
12.4.4 Sqoop数据导出321
12.4.5项目数据可视化展示323
本章 小结327
第13章 项目实践:视频网站爬虫系统开发328
13.1项目背景328
13.2项目需求328
13.3项目分析328
13.4项目环境准备329
13.5项目开发流程329
13.5.1数据采集329
13.5.2数据存储334
13.5.3数据处理335
13.5.4数据展示337
本章 小结338
参考文献339