图书介绍

深入云计算 Hadoop应用开发实战详解PDF|Epub|txt|kindle电子书版本网盘下载

深入云计算 Hadoop应用开发实战详解
  • 万川梅,谢正兰著 著
  • 出版社: 北京:中国铁道出版社
  • ISBN:9787113161934
  • 出版时间:2013
  • 标注页数:397页
  • 文件大小:259MB
  • 文件页数:413页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

深入云计算 Hadoop应用开发实战详解PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1篇 Hadoop技术篇2

第1章 初识Hadoop2

1.1 Hadoop简介2

1.1.1 Hadoop的起源2

1.1.2 什么是Hadoop3

1.1.3 Hadoop的核心技术是Google核心技术的开源实现4

1.1.4 Hadoop的功能与优点5

1.1.5 Hadoop的应用现状和发展趋势6

1.2 Hadoop的体系结构11

1.2.1 HDFS的体系结构12

1.2.2 MapReduce的体系结构19

1.3 Hadoop与分布式开发21

1.4 Hadoop的数据管理23

1.4.1 HDFS的数据管理23

1.4.2 HBase的数据管理23

1.4.3 Hive的数据管理24

1.5 思考与总结25

第2章 Hadoop的安装和配置27

2.1 在Windows下安装与配置Hadoop27

2.1.1 JDK的安装27

2.1.2 Cygwin的安装30

2.1.3 Hadoop的安装36

2.2 在Linux下安装与配置Hadoop38

2.2.1 Ubuntu的安装38

2.2.2 JDK的安装41

2.2.3 Hadoop的安装41

2.3 Hadoop的执行实例43

2.3.1 运行Hadoop44

2.3.2 运行wordcount.java程序44

2.4 Hadoop Eclipse简介和使用45

2.4.1 Eclipse插件介绍45

2.4.2 Eclipse插件开发配置45

2.4.3 在Eclipse下运行WordCount程序49

2.5 Hadoop的集群和优化56

2.5.1 Hadoop的性能优化57

2.5.2 Hadoop配置机架感知信息58

2.6 思考与总结59

第3章 HDFS海量存储60

3.1 开源的GFS——HDFS60

3.1.1 HDFS简介60

3.1.2 HDFS的体系结构63

3.1.3 HDFS的保障可靠性措施64

3.2 HDFS的常用操作67

3.2.1 HDFS下的文件操作67

3.2.2 管理与更新74

3.2.3 HDFS API详解76

3.2.4 HDFS的读/写数据流88

3.3 用HDFS存储海量的视频数据91

3.3.1 场景分析91

3.3.2 设计实现91

3.4 思考与总结93

第4章 初识MapReduce94

4.1 MapReduce简介94

4.1.1 MapReduce要解决什么问题94

4.1.2 MapReduce的理论基础95

4.1.3 MapReduce的编程模式97

4.2 MapReduce的集群行为98

4.3 Map/Reduce框架100

4.4 样例分析:单词计数100

4.4.1 WordCount实例的运行过程100

4.4.2 WordCount的源码分析和程序处理过程103

4.4.3 MapReduce常用类及其接口106

4.5 实例:倒排索引109

4.5.1 倒排索引的分析和设计109

4.5.2 倒排索引完整源码112

4.5.3 运行代码结果116

4.6 MapReduce在日志分析中数据去重案例117

4.6.1 什么是数据去重117

4.6.2 设计思路118

4.6.3 程序代码118

4.6.4 代码运行结果120

4.7 数据排序实例122

4.7.1 实例描述122

4.7.2 设计思路123

4.7.3 程序代码123

4.8 思考与总结126

第5章 分布式开源数据库HBase127

5.1 HBase简介127

5.1.1 HBase逻辑视图127

5.1.2 HBase物理存储129

5.1.3 子表Region服务器130

5.1.4 Hmaster主服务器132

5.1.5 元数据表132

5.2 HBase的安装配置133

5.2.1 HBase单机模式133

5.2.2 HBase伪分布模式135

5.2.3 HBase完全分布模式136

5.3 学生成绩表实例140

5.3.1 Shell的基本操作141

5.3.2 代码实现143

5.3.3 关于中文的处理145

5.3.4 常用HBase的Shell操作149

5.4 思考与总结153

第6章 MapReduce进阶154

6.1 API的配置154

6.1.1 一个简单的配置文件155

6.1.2 合并多个源文件156

6.1.3 可变的扩展157

6.2 配置开发环境157

6.2.1 配置文件设置157

6.2.2 设置用户标识159

6.3 复合键值对的使用159

6.3.1 小的键值对如何合并成大的键值对159

6.3.2 巧用复合键让系统完成排序160

6.4 用户定制数据类型164

6.4.1 内置数据类型164

6.4.2 用户自定义数据类型164

6.5 用户定制输入/输出格式166

6.5.1 内置数据的输入格式167

6.5.2 用户定制数据输入格式与RecordReader168

6.5.3 Hadoop内置的数据输出格式172

6.5.4 Hadoop内置的数据输出格式与RecordWriter172

6.6 用户定制Partitioner和Combiner173

6.7 组合式的MapReduce作业176

6.7.1 MapReduce作业运行机制176

6.7.2 组合式MapReduce计算作业178

6.8 DataJoin链接多数据源183

6.9 思考与总结187

第7章 Hive数据仓库188

7.1 Hive简介188

7.2 Hive安装与配置189

7.3 Hive的服务191

7.3.1 Hive shell191

7.3.2 JDBC/ODBC192

7.3.3 Thrift服务192

7.3.4 Web接口193

7.3.5 元数据服务193

7.4 HiveQL查询语言193

7.5 Hive实例202

7.5.1 UDF编程实例202

7.5.2 UDAF编程实例204

7.5.3 Hive的日志数据统计实战206

7.6 思考与总结211

第8章 Pig开发应用212

8.1 Pig简介212

8.2 Pig的安装与配置213

8.3 Pig的使用215

8.3.1 Pig的MapReduce模式215

8.3.2 Pig的运行方式216

8.4 通过Grunt学习Pig Latin219

8.4.1 Pig的数据模型220

8.4.2 运算符221

8.4.3 常用操作222

8.4.4 各种SQL在Pig中的实现229

8.4.5 Pig Latin实现233

8.5 Pig使用的案例235

8.6 思考与总结235

第9章 Chukwa数据收集系统236

9.1 Chukwa简介236

9.1.1 Chukwa是什么236

9.1.2 Chukwa主要解决什么问题240

9.2 Chukwa的安装配置240

9.2.1 Chukwa的安装240

9.2.2 Chukwa的配置242

9.2.3 Chukwa的启动245

9.3 Chukwa的基本命令248

9.3.1 Chukwa端的命令248

9.3.2 Agent端的命令249

9.4 Chukwa在数据收集处理方面的运用251

9.4.1 数据生成251

9.4.2 数据收集251

9.4.3 数据处理252

9.4.4 数据析取252

9.4.5 数据稀释253

9.4.6 数据显示253

9.5 思考与总结253

第10章 ZooKeeper开发应用254

10.1 ZooKeeper简介254

10.1.1 ZooKeeper的设计目标254

10.1.2 ZooKeeper主要解决什么问题256

10.1.3 ZooKeeper的基本概念和工作原理257

10.2 ZooKeeper的安装配置260

10.2.1 单机模式261

10.2.2 启动并测试ZooKeeper262

10.2.3 集群模式264

10.3 ZooKeeper提供的接口267

10.4 ZooKeeper事件270

10.5 ZooKeeper实例271

10.5.1 实例1:一个简单的应用——分布式互斥锁271

10.5.2 实例2:进程调度系统276

10.6 思考与总结283

第2篇 Hadoop管理和容错篇286

第11章 Hadoop管理286

11.1 Hadoop权限管理286

11.2 HDFS文件系统管理292

11.3 Hadoop维护与管理298

11.4 Hadoop常见问题及解决办法300

11.5 思考与总结310

第12章 Hadoop容错311

12.1 Hadoop的可靠性311

12.1.1 HDFS中的NameNode单点失效解决方案311

12.1.2 HDFS数据块副本机制313

12.1.3 HDFS心跳机制319

12.1.4 HDFS负载均衡320

12.1.5 MapReduce容错321

12.2 Hadoop的SecondayNameNode机制322

12.2.1 磁盘镜像与日志文件322

12.2.2 SecondaryNameNode更新镜像的流程323

12.3 Avatar机制325

12.3.1 Avatar机制简介325

12.3.2 Avatars部署实战326

12.4 Hadoop_HBase容错331

12.5 思考与总结333

第3篇 Hadoop实战篇336

第13章 综合实战1:Hadoop中的数据库访问336

13.1 DBInputFormat类访问数据库336

13.1.1 在DBInputFormat类中包含的内置类336

13.1.2 使用DBInputFormat读取数据库表中的记录337

13.1.3 使用示例337

13.2 使用DBOutputFormat向数据库中写记录340

13.3 思考与总结343

第14章 综合实战2:一个简单的分布式的Grep344

14.1 分析与设计344

14.2 实现代码345

14.3 运行程序346

14.4 思考与总结346

第15章 综合实战3:打造一个搜索引擎348

15.1 搜索引擎工作原理348

15.2 网页搜集与信息提取350

15.2.1 设计的主要思想350

15.2.2 系统设计目标351

15.3 网页信息的提取与存储352

15.4 MapReduce的预处理353

15.4.1 第一步:源数据过滤353

15.4.2 第二步:生成倒排文件355

15.4.3 第三步:建立二级索引362

15.5 建立Web信息查询服务365

15.6 思考与总结366

第16章 综合实战4:移动通信信令监测与查询367

16.1 分析与设计367

16.1.1 CDR数据文件的检测与索引创建任务调度369

16.1.2 从HDFS读取数据并创建索引370

16.1.3 查询CDR信息371

16.2 代码实现371

16.2.1 CDR文件检测和索引创建任务程序371

16.2.2 读取CDR数据和索引创建处理375

16.2.3 CDR查询383

16.3 思考与总结384

附录A Hadoop命令大全385

附录B HDFS命令大全392

热门推荐