图书介绍

实战Hadoop大数据处理PDF|Epub|txt|kindle电子书版本网盘下载

实战Hadoop大数据处理
  • 曾刚编著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:7302411444
  • 出版时间:2015
  • 标注页数:266页
  • 文件大小:40MB
  • 文件页数:278页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

实战Hadoop大数据处理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据概述1

1.1 大数据简介1

1.1.1 大数据的概念与特点2

1.1.2 大数据研究的背景4

1.1.3 大数据的应用示例5

1.1.4 大数据研究的意义6

1.2 大数据处理技术简介6

1.2.1 大数据的关键技术6

1.2.2 大数据处理模式及其系统9

1.3 大数据带来的挑战13

1.4 大数据的研究与发展方向14

第2章 Hadoop简介16

2.1 Hadoop项目起源17

2.2 Hadoop的由来19

2.3 Hadoop核心组件及相关项目简介21

2.4 Hadoop的版本衍化26

2.5 Hadoop的发展趋势26

第3章 Hadoop的安装28

3.1 安装Ubuntu Server28

3.1.1 VMware网络适配器的连接模式28

3.1.2 “仅主机模式”网络的设置29

3.1.3 安装Ubuntu Server31

3.1.4 远程管理Ubuntu Server37

3.1.5 安装JDK39

3.1.6 克隆其他虚拟机41

3.1.7 配置hosts文件43

3.2 配置SSH公钥认证43

3.2.1 为什么要公钥认证43

3.2.2 公钥认证的工作原理44

3.2.3 SSH客户端的安装44

3.2.4 SSH配置45

3.2.5 配置SecureCRT公钥登录Linux服务器47

3.3 安装配置Hadoop49

3.3.1 单机安装50

3.3.2 伪分布模式的安装51

3.3.3 分布式安装53

3.3.4 Hadoop管理员常用命令58

3.4 双NameNode分布式安装Hadoop 2.2.063

3.4.1 安装配置Zookeeper集群64

3.4.2 安装Hadoop 2.2.065

第4章 HDFS文件系统71

4.1 互联网时代对存储系统的新要求71

4.2 HDFS系统的特点72

4.3 HDFS文件系统73

4.3.1 HDFS系统组成73

4.3.2 HDFS文件数据的存储组织75

4.3.3 元数据及其备份机制77

4.3.4 数据块备份79

4.3.5 数据的读取过程80

4.3.6 数据的写入过程81

4.4 HDFS Shell命令82

4.5 API访问HDFS88

4.5.1 编译Hadoop的Eclipse插件88

4.5.2 在Eclipse中安装Hadoop插件90

4.5.3 Hadoop URL读取数据92

4.5.4 FileSystem类93

4.5.5 取得HDFS的元信息97

4.6 HDFS的高可用性99

4.6.1 元数据的备份99

4.6.2 使用SecondaryName进行备份100

4.6.3 BackupNode备份100

4.6.4 Hadoop 2.X中HDFS的高可用性实现原理100

4.6.5 Federation机制101

4.7 HDFS中小文件存储问题105

4.7.1 文件归档技术105

4.7.2 SequenceFile格式108

4.7.3 CombineFileInputFormat108

第5章 MapReduce原理及开发110

5.1 初识MapReduce110

5.1.1 试用WordCount110

5.1.2 自己编写WordCount111

5.1.3 WordCount处理过程118

5.2 MapReduce工作原理119

5.2.1 MapReduce数据处理过程119

5.2.2 MapReduce框架组成120

5.2.3 MapReduce运行原理121

5.3 Shuffle和Sort123

5.3.1 Map端的Shuffle124

5.3.2 Reduce端Shuffle126

5.3.3 Shuffle过程优化127

5.4 任务的执行128

5.4.1 推测执行128

5.4.2 任务JVM重用129

5.4.3 跳过坏的记录129

5.4.4 任务执行的信息129

5.5 故障处理130

5.5.1 任务失败130

5.5.2 TaskTracker失败130

5.5.3 JobTracker失败130

5.5.4 任务失败重试的处理方法130

5.6 作业调度131

5.6.1 先进先出(FIFO)调度器131

5.6.2 能力调度器132

5.6.3 公平调度器132

5.7 MapReduce编程接口132

5.7.1 InputFormat——输入格式类133

5.7.2 FileInputFormat——文件输入格式类134

5.7.3 InputSplit——数据分块类134

5.7.4 RecordReader——记录读取类135

5.7.5 Mapper类135

5.7.6 Reducer类136

5.7.7 OutputFormat——输出格式类137

5.7.8 FileOutputFormat类——文件输出格式类138

5.7.9 RecordWriter类——记录输出类138

5.8 MapReduce应用开发138

5.8.1 计数类应用139

5.8.2 去重计数类应用143

5.8.3 简单排序类应用145

5.8.4 倒排索引类应用148

5.8.5 二次排序类应用154

第6章 HBase数据库160

6.1 HBase介绍160

6.1.1 互联网时代对数据库的要求160

6.1.2 HBase的特点160

6.2 HBase架构与原理161

6.2.1 系统的架构及组成161

6.2.2 HBase逻辑视图163

6.2.3 HBase的物理模型164

6.2.4 元数据表165

6.3 安装HBase166

6.3.1 单机模式安装166

6.3.2 伪分布模式安装168

6.3.3 分布式安装169

6.4 HBase Shell操作171

6.4.1 基本Shell命令171

6.4.2 DDL操作172

6.4.3 DML操作174

6.4.4 HBase Shell脚本176

6.5 基于API使用HBase176

6.5.1 API简介177

6.5.2 表操作示例179

6.5.3 数据操作示例181

6.5.4 Filter的应用与示例184

6.6 MapReduce操作HBase数据191

6.6.1 HBase MapReduce汇总到文件193

6.6.2 HBase MapReduce汇总到HBase195

6.7 HBase优化196

6.7.1 JVM GC优化196

6.7.2 HBase参数调优197

6.7.3 表设计优化199

6.7.4 读优化200

6.7.5 写优化201

第7章 Hive数据仓库202

7.1 Hive简介202

7.1.1 数据分析工具应具有的特征202

7.1.2 Pig与Hive的比较202

7.1.3 Hive架构203

7.1.4 Hive的元数据存储205

7.1.5 Hive文件存储格式206

7.1.6 Hive支持的数据类型207

7.2 Hive的安装207

7.2.1 安装MySQL207

7.2.2 安装Hive209

7.2.3 Hive的用户接口211

7.3 Hive QL讲解214

7.3.1 DDL命令214

7.3.2 DML操作219

7.3.3 SELECT查询222

7.4 Hive复杂类型228

7.4.1 Array(数组)228

7.4.2 Map类型229

7.4.3 Struct类型229

7.5 Hive函数230

7.5.1 Hive内置函数230

7.5.2 Hive用户自定义函数231

第8章 数据整合235

8.1 大数据整合问题235

8.2 Sqoop 1.4X整合工具236

8.3 Sqoop2整合工具240

第9章 典型应用案例介绍245

9.1 大数据在智能交通中的应用245

9.1.1 交通运输业面临的挑战245

9.1.2 智能交通大数据平台的架构247

9.1.3 数据分析层的数据基础分析248

9.2 大数据在情报分析中的应用253

9.2.1 公安情报分析的现状254

9.2.2 大数据情报分析系统架构254

9.2.3 数据的整合255

9.2.4 情报分析的方法256

9.2.5 基于文本的串并案件聚类分析257

参考文献264

热门推荐