图书介绍

Hadoop大数据技术基础及应用PDF|Epub|txt|kindle电子书版本网盘下载

大讲台大数据研习社编著著
出版社：北京：机械工业出版社
ISBN：9787111620167
出版时间：2019
标注页数：339页
文件大小：50MB
文件页数：354页
主题词：数据处理软件－高等学校－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：dd5eb6311e35e79f3af173800ab597a5

下载说明

Hadoop大数据技术基础及应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章 Hadoop概述1

1.1Hadoop的前世今生1

1.1.1 Hadoop是什么1

1.1.2项目起源1

1.1.3发展历程2

1.1.4名字起源2

1.2 Hadoop生态系统简介2

1.3 Hadoop的优势及应用领域4

1.3.1 Hadoop的优势4

1.3.2 Hadoop的应用领域4

1.4 Hadoop与云计算5

1.4.1云计算的概念及特点5

1.4.2 Hadoop与云计算之间的关系6

1.5 Hadoop与Spark6

1.5.1 Spark的概念及特点6

1.5.2 Hadoop与Spark之间的关系7

1.6 Hadoop与传统关系型数据库8

1.6.1传统关系型数据库的概念及特点8

1.6.2 Hadoop与传统数据库之间的关系8

本章小结9

本章习题9

第2章 Hadoop开发及运行环境搭建10

2.1Hadoop集群环境搭建概述10

2.1.1虚拟机的安装部署10

2.1.2 Linux操作系统的安装部署11

2.1.3 Hadoop的运行模式11

2.2 Hadoop伪分布式集群环境搭建12

2.2.1关闭防火墙和禁用SELINUX12

2.2.2配置hostname与IP地址之间的对应关系13

2.2.3创建用户和用户组14

2.2.4配置SSH免密码登录15

2.2.5 JDK安装17

2.2.6 Hadoop伪分布式集群的安装配置19

2.2.7测试运行Hadoop集群24

2.3搭建MyEclipse开发环境26

2.3.1 JDK的安装配置26

2.3.2安装MyEclipse28

2.3.3在MyEclipse上安装Hadoop插件28

2.3.4 Hadoop环境配置31

2.3.5构建MapReduce项目32

本章小结38

本章习题38

第3章 HDFS分布式文件系统39

3.1HDFS体系结构详解39

3.1.1什么是文件系统39

3.1.2什么是分布式文件系统39

3.1.3 HDFS分布式文件系统概述40

3.2 HDFS的Shell操作50

3.2.1 HDFS基本Shell操作命令50

3.2.2 Hadoop管理员常用的Shell操作命令52

3.3 HDFS的Java API操作53

3.3.1获取HDFS文件系统53

3.3.2文件/目录的创建与删除53

3.3.3获取文件54

3.3.4上传/下载文件55

3.3.5获取HDFS集群节点信息55

3.4 HDFS的新特性——HA56

3.4.1HA机制产生背景56

3.4.2 HDFS的HA机制56

3.4.3 HDFS的HA架构57

3.5实战：小文件合并程序的编写及运行58

本章小结62

本章习题62

第4章 MapReduce分布式计算框架63

4.1初识MapReduce63

4.1.1 MapReduce概述63

4.1.2 MapReduce的基本设计思想64

4.1.3 MapReduce的优缺点65

4.2 MapReduce编程模型66

4.2.1 MapReduce编程模型简介66

4.2.2深入剖析MapReduce编程模型——以WordCount为例68

4.3 MapReduce运行框架72

4.3.1 MapReduce架构72

4.3.2 MapReduce的运行机制75

4.3.3 MapReduce内部逻辑77

4.3.4 MapReduce数据本地性78

4.3.5 MapReduce框架的容错性80

4.3.6 MapReduce资源组织方式81

4.3.7 MapReduce的高级特性及应用81

4.4实战：统计相同字母组成的不同单词81

本章小结83

本章习题83

第5章 Hadoop的文件I/O84

5.1Hadoop文件I/O概述84

5.2 Hadoop文件I/O的数据完整性85

5.2.1 Hadoop文件I/O的数据完整性的概念85

5.2.2 Hadoop的数据校验方式86

5.3 Hadoop文件的序列化90

5.3.1什么是序列化90

5.3.2为什么要序列化90

5.3.3为什么不用Java的序列化90

5.3.4 Hadoop对序列化机制的要求90

5.3.5 Hadoop中定义的序列化相关接口91

5.4 Hadoop数据的解压缩94

5.4.1解压缩简介94

5.4.2 Hadoop常见压缩格式及特点94

5.4.3常见压缩的使用方式95

5.5基于文件的数据结构96

5.6实战：Hadoop源码编译及Snappy压缩的配置使用101

本章小结103

本章习题104

第6章 YARN资源管理器105

6.1初识YARN105

6.1.1 YARN是什么105

6.1.2 YARN的作用106

6.2 YARN基本架构106

6.3 YARN的工作原理107

6.3.1 YARN上运行的应用程序107

6.3.2 YARN的工作流程108

6.3.3 MapReduce On YARN的工作流程109

6.4 YARN的容错性110

6.5 YARN HA110

本章小结111

本章习题112

第7章 Zookeeper分布式协调服务113

7.1 Zookeeper概述113

7.1.1 ZooKeeper是什么113

7.1.2 Zookeeper的特点114

7.1.3 Zookeeper的基本架构114

7.1.4 Zookeeper的工作原理115

7.2 Zookeeper安装配置115

7.3 Zookeeper服务116

7.3.1数据模型116

7.3.2基本操作118

7.3.3实现方式118

7.4 Zookeeper的应用119

7.4.1数据发布与订阅119

7.4.2负载均衡119

7.4.3命名服务120

7.4.4分布式通知/协调120

7.4.5配置管理120

7.4.6集群管理120

7.4.7分布式锁121

7.4.8分布式队列121

7.5实战：模拟实现集群配置信息的订阅与发布122

本章小结127

本章习题127

第8章 Hadoop分布式集群搭建与管理128

8.1准备物理集群128

8.1.1物理集群搭建方式128

8.1.2虚拟机的准备128

8.2集群规划132

8.2.1主机规划132

8.2.2软件规划132

8.2.3用户规划133

8.2.4目录规划133

8.3集群安装前的准备133

8.3.1时钟同步133

8.3.2 hosts文件检查134

8.3.3禁用防火墙134

8.3.4配置SSH免密码通信134

8.3.5脚本工具的使用135

8.4 Hadoop相关软件安装138

8.4.1JDK的安装138

8.4.2 Zookeeper的安装139

8.5 Hadoop集群环境的搭建140

8.5.1 Hadoop软件的安装140

8.5.2 Hadoop配置及使用HDFS141

8.5.3 Hadoop配置及使用YARN146

8.6集群启停149

8.6.1启动集群149

8.6.2关闭集群150

8.7主机的维护操作151

8.7.1 Active NameNode维护操作151

8.7.2 Standby NameNode维护操作151

8.7.3 DataNode维护操作151

8.7.4 Active ResourceManager维护操作151

8.7.5 Standby ResourceManager维护操作152

8.7.6 NodeManager维护操作152

8.8集群节点动态增加与删除152

8.8.1增加DataNode152

8.8.2删除DataNode153

8.8.3增删NodeManager153

8.9集群运维技巧153

8.9.1查看日志153

8.9.2清理临时文件154

本章小结154

本章习题154

第9章 Hive数据仓库155

9.1初识Hive155

9.1.1 Hive是什么155

9.1.2 Hive产生的背景155

9.1.3什么是数据仓库156

9.1.4 Hive在Hadoop生态系统中的位置156

9.1.5 Hive和Hadoop的关系157

9.1.6 Hive和普通关系数据库的异同157

9.2 Hive的原理及架构158

9.2.1 Hive的设计原理158

9.2.2 Hive的体系架构159

9.2.3 Hive的运行机制160

9.2.4 Hive编译器的运行机制161

9.2.5 Hive的优缺点161

9.2.6 Hive的数据类型161

9.2.7 Hive的数据存储162

9.3 Hive的安装部署163

9.3.1安装MySQL163

9.3.2安装Hive164

9.4 Hive数据库的相关操作165

9.5 Hive数据表的相关操作171

9.5.1常见数据表类型171

9.5.2操作内部表172

9.5.3操作外部表177

9.5.4操作分区表177

9.5.5操作桶表180

9.6 Hive的数据操作语言DML182

9.6.1通过LOAD语句向表中装载数据182

9.6.2通过INSERT语句向表中插入数据183

9.6.3利用动态分区向表中插入数据184

9.6.4通过CTAS加载数据186

9.6.5导出数据186

9.7 Hive的数据查询语言DQL187

9.7.1 SELECT …FROM语句188

9.7.2 WHERE语句189

9.7.3数据的递归查询189

9.7.4 GROUP BY语句和HAVING语句191

9.7.5 ORDER BY语句和SORT BY语句192

9.7.6 DISTRIBUTE BY语句194

9.7.7 CLUSTER BY语句195

9.8实战：通过Hive分析股票走势规律195

本章小结199

本章习题199

第10章 HBase分布式数据库200

10.1 HBase概述200

10.1.1 HBase是什么200

10.1.2 Hbase的特点200

10.2 HBase数据模型201

10.2.1 Hbase逻辑模型201

10.2.2 HBase数据模型的核心概念202

10.2.3 Hbase的物理模型203

10.2.4 Hbase的基本架构204

10.3 HBase的核心概念206

10.3.1预写日志206

10.3.2 Region定位206

10.3.3写入流程208

10.3.4查询流程209

10.3.5容错性211

10.4 HBase集群安装部署211

10.4.1集群规划211

10.4.2 HBase集群安装212

10.5 HBase Shell工具217

10.5.1命令分类217

10.5.2基本操作218

10.6 HBase Java客户端220

10.6.1客户端配置220

10.6.2创建表221

10.6.3删除表222

10.6.4插入数据223

10.6.5查询数据223

10.6.6删除数据225

10.6.7过滤查询225

10.7实战：MapReduce批量操作HBase226

本章小结230

本章习题230

第11章 Hadoop生态系统常用开发技术231

11.1 Sqoop数据导入导出工具231

11.1.1 Sqoop概述231

11.1.2 Sqoop的优势232

11.1.3 Sqoop的架构与工作机制232

11.1.4 Sqoop Import流程232

11.1.5 Sqoop Export流程233

11.1.6 Sqoop的安装配置234

11.1.7 Sqoop实战236

11.2 Flume日志采集系统238

11.2.1 Flume概述238

11.2.2 Flume NG的架构及工作机制238

11.2.3 Flume NG的核心功能模块239

11.2.4 Flume NG的数据可靠性242

11.2.5 Flume NG的应用场景242

11.2.6 Flume NG的安装配置244

11.2.7 Flume NG实战246

11.3 Kafka分布式消息系统248

11.3.1 Kafka概述248

11.3.2 Kafka的特点248

11.3.3 Kafka的架构248

11.3.4 Kafka的相关服务249

11.3.5 Kafka的安装配置251

11.3.6 Kafka Shell操作254

11.3.7 Kafka客户端操作256

11.4 ElasticSearch全文检索工具259

11.4.1 ElasticSearch概述259

11.4.2 ElasticSearch的特点259

11.4.3 ElasticSearch的架构260

11.4.4 ElasticSearch的相关服务261

11.4.5 ElasticSearch的索引模块262

11.4.6 ElasticSearch的安装配置266

11.4.7 ElasticSearch RESTful API271

11.4.8 ElasticSearch Java API280

11.5 Storm流式计算框架285

11.5.1 Storm概述285

11.5.2 Storm的特点285

11.5.3 Storm的架构285

11.5.4 Storm工作流286

11.5.5 Storm数据流287

11.5.6 Storm集群的安装配置288

11.5.7实战：统计网站PV和UV292

11.6 Spark内存计算框架299

11.6.1 Spark概述299

11.6.2 Spark的特点299

11.6.3弹性分布式数据集RDD300

11.6.4 Spark架构原理301

11.6.5算子功能及分类303

11.6.6 Spark集群的安装配置304

11.6.7实战：搜狗搜索数据统计308

本章小结310

本章习题310

第12章项目实践：广电收视率数据统计分析312

12.1项目背景312

12.2项目需求312

12.3项目分析313

12.3.1认识数据源313

12.3.2项目各个收视指标的定义及计算方法313

12.4项目开发流程315

12.4.1 Flume数据收集316

12.4.2 MapReduce数据清洗及分析317

12.4.3 Hive数据统计分析319

12.4.4 Sqoop数据导出321

12.4.5项目数据可视化展示323

本章小结327

第13章项目实践：视频网站爬虫系统开发328

13.1项目背景328

13.2项目需求328

13.3项目分析328

13.4项目环境准备329

13.5项目开发流程329

13.5.1数据采集329

13.5.2数据存储334

13.5.3数据处理335

13.5.4数据展示337

本章小结338

参考文献339