图书介绍

Hadoop权威指南 第3版PDF|Epub|txt|kindle电子书版本网盘下载

Hadoop权威指南 第3版
  • (美)TOMWHITE著;华东师范大学数据科学与工程学院译 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302370857
  • 出版时间:2015
  • 标注页数:682页
  • 文件大小:107MB
  • 文件页数:708页
  • 主题词:数据处理软件-指南

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop权威指南 第3版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 初识Hadoop1

1.1 数据!数据!1

1.2 数据的存储与分析3

1.3 相较于其他系统的优势4

1.3.1 关系型数据库管理系统5

1.3.2 网格计算7

1.3.3 志愿计算9

1.4 Hadoop发展简史10

1.5 Apache Hadoop和Hadoop生态系统14

1.6 Hadoop的发行版本15

1.6.1 本书包含的内容16

1.6.2 兼容性17

第2章 关于MapReduce19

2.1 气象数据集19

2.2 使用Unix工具来分析数据21

2.3 使用Hadoop来分析数据23

2.3.1 map和reduce23

2.3.2 Java MapReduce24

2.4 横向扩展33

2.4.1 数据流34

2.4.2 combiner函数37

2.4.3 运行分布式的MapReduce作业39

2.5 Hadoop Streaming40

2.5.1 Ruby版本40

2.5.2 Python版本43

2.6 Hadoop Pipes44

第3章 Hadoop分布式文件系统49

3.1 HDFS的设计49

3.2 HDFS的概念51

3.2.1 数据块51

3.2.2 namenode和datanode52

3.2.3 联邦HDFS53

3.2.4 HDFS的高可用性54

3.3 命令行接口56

3.4 Hadoop文件系统58

3.5 Java接口62

3.5.1 从Hadoop URL读取数据63

3.5.2 通过FileSystem API读取数据64

3.5.3 写入数据68

3.5.4 目录70

3.5.5 查询文件系统70

3.5.6 删除数据75

3.6 数据流75

3.6.1 剖析文件读取75

3.6.2 剖析文件写入78

3.6.3 一致模型81

3.7 通过Flume和Sqoop导入数据83

3.8 通过distcp并行复制84

3.9 Hadoop存档86

3.9.1 使用Hadoop存档工具86

3.9.2 不足88

第4章 Hadoop的I/O操作89

4.1 数据完整性89

4.1.1 HDFS的数据完整性89

4.1.2 LocalFileSystem91

4.1.3 ChecksumFileSystem91

4.2 压缩92

4.2.1 codec93

4.2.2 压缩和输入分片98

4.2.3 在MapReduce使用压缩99

4.3 序列化102

4.3.1 Writable接口103

4.3.2 Writable类105

4.3.3 实现定制的Writable集合114

4.3 序列化框架118

4.4 Avro121

4.4.1 Avro数据类型和模式122

4.4.2 内存中的序列化和反序列化126

4.4.3 Avro数据文件129

4.4.4 互操作性130

4.4.5 模式的解析133

4.4.6 排列顺序135

4.4.7 关于Avro MapReduce137

4.4.8 使用Avro MapReduce进行排序141

4.4.9 其他语言的Avro MapReduce143

4.5 基于文件的数据结构143

4.5.1 关于SequenceFile143

4.5.2 关于MapFile151

第5章 MapReduce应用开发157

5.1 用于配置的API157

5.1.1 资源合并159

5.1.2 可变的扩展160

5.2 配置开发环境160

5.2.1 管理配置162

5.2.2 辅助类GenericOptionsParser,Tool和ToolRunner165

5.3 用MRUnit来写单元测试168

5.3.1 关于Mapper168

5.3.2 关于Reducer170

5.4 本地运行测试数据171

5.4.1 在本地作业运行器上运行作业171

5.4.2 测试驱动程序175

5.5 在集群上运行176

5.5.1 打包作业177

5.5.2 启动作业179

5.5.3 MapReduce的Web界面181

5.5.4 获取结果184

5.5.5 作业调试185

5.5.6 Hadoop日志190

5.5.7 远程调试192

5.6 作业调优193

5.7 MapReduce的工作流196

5.7.1 将问题分解成MapReduce作业197

5.7.2 关于JobControl198

5.7.3 关于Apache Oozie199

第6章 MapReduce的工作机制205

6.1 剖析MapReduce作业运行机制205

6.1.1 经典的MapReduce(MapReduce 1)206

6.1.2 YARN(MapReduce 2)213

6.2 失败219

6.2.1 经典MapReduce中的失败219

6.2.2 YARN中的失败222

6.3 作业的调度224

6.3.1 公平调度器225

6.3.2 容量调度器225

6.4 shuffle和排序226

6.4.1 map端226

6.4.2 reduce端228

6.4.3 配置调优230

6.5 任务的执行232

6.5.1 任务执行环境232

6.5.2 推测执行233

6.5.3 关于OutputCommitters235

6.5.4 任务JVM重用237

6.5.5 跳过坏记录238

第7章 MapReduce的类型与格式241

7.1 MapReduce的类型241

7.1.1 默认的MapReduce作业245

7.1.2 默认的Streaming作业249

7.2 输入格式252

7.2.1 输入分片与记录252

7.2.2 文本输入264

7.2.3 二进制输入268

7.2.4 多个输入269

7.2.5 数据库输入(和输出)270

7.3 输出格式271

7.3.1 文本输出271

7.3.2 二进制输出272

7.3.3 多个输出272

7.3.4 延迟输出277

7.3.5 数据库输出277

第8章 MapReduce的特性279

8.1 计数器279

8.1.1 内置计数器279

8.1.2 用户定义的Java计数器284

8.1.3 用户定义的Streaming计数器289

8.2 排序289

8.2.1 准备290

8.2.2 部分排序291

8.2.3 全排序295

8.2.4 辅助排序299

8.3 连接305

8.3.1 map端连接307

8.3.2 reduce端连接307

8.4 边数据分布311

8.4.1 利用JobConf来配置作业311

8.4.2 分布式缓存311

8.5 MapReduce库类318

第9章 构建Hadoop集群321

9.1 集群规范321

9.2 集群的构建和安装325

9.2.1 安装Java326

9.2.2 创建Hadoop用户326

9.2.3 安装Hadoop326

9.2.4 测试安装327

9.3 SSH配置327

9.4 Hadoop配置328

9.4.1 配置管理329

9.4.2 环境设置332

9.4.3 Hadoop守护进程的关键属性336

9.4.4 Hadoop守护进程的地址和端口341

9.4.5 Hadoop的其他属性343

9.4.6 创建用户帐号346

9.5 YARN配置346

9.5.1 YARN守护进程的重要属性347

9.5.2 YARN守护进程的地址和端口350

9.6 安全性352

9.6.1 Kerberos和Hadoop353

9.6.2 委托令牌355

9.6.3 其他安全性改进356

9.7 利用基准评测程序测试Hadoop集群358

9.7.1 Hadoop基准评测程序358

9.7.2 用户作业361

9.8 云端的Hadoop361

第10章 管理Hadoop367

10.1 HDFS367

10.1.1 永久性数据结构367

10.1.2 安全模式373

10.1.3 日志审计375

10.1.4 工具375

10.2 监控380

10.2.1 日志381

10.2.2 度量382

10.2.3 Java管理扩展(JMX)385

10.3 维护387

10.3.1 日常管理过程387

10.3.2 委任和解除节点389

10.3.3 升级392

第11章 关于Pig397

11.1 安装与运行Pig398

11.1.1 执行类型399

11.1.2 运行Pig程序400

11.1.3 Grunt401

11.1.4 Pig Latin编辑器401

11.2 示例402

11.3 与数据库进行比较405

11.4 Pig Latin406

11.4.1 结构407

11.4.2 语句408

11.4.3 表达式413

11.4.4 类型414

11.4.5 模式415

11.4.6 函数420

11.4.7 宏422

11.5 用户自定义函数423

11.5.1 过滤UDF423

11.5.2 计算UDF427

11.5.3 加载UDF429

11.6 数据处理操作432

11.6.1 数据的加载和存储432

11.6.2 数据的过滤433

11.6.3 数据的分组与连接436

11.6.4 数据的排序441

11.6.5 数据的组合和切分442

11.7 Pig实战443

11.7.1 并行处理443

11.7.2 参数代换444

第12章 关于Hive447

12.1 安装Hive448

12.2 示例450

12.3 运行Hive451

12.3.1 配置Hive452

12.3.2 Hive服务454

12.3.3 Metastore456

12.4 Hive与传统数据库相比458

12.4.1 读时模式vs.写时模式458

12.4.2 更新、事务和索引459

12.5 HiveQL460

12.5.1 数据类型461

12.5.2 操作与函数463

12.6 表464

12.6.1 托管表和外部表465

12.6.2 分区和桶466

12.6.3 存储格式471

12.6.4 导入数据477

12.6.5 表的修改479

12.6.6 表的丢弃480

12.7 查询数据480

12.7.1 排序和聚集480

12.7.2 MapReduce脚本481

12.7.3 连接482

12.7.4 子查询486

12.7.5 视图486

12.8 用户定义函数488

12.8.1 写UDF489

12.8.2 写UDAF491

第13章 关于HBase497

13.1 HBase基础497

13.2 概念498

13.3.1 数据模型的“旋风之旅”498

13.3.2 实现500

13.3 安装503

13.4 客户端506

13.4.1 Java506

13.4.2 Avro、REST和Thrift510

13.5 示例511

13.5.1 模式511

13.5.2 加载数据512

13.5.3 Web查询516

13.6 HBase和RDBMS的比较519

13.6.1 成功的服务520

13.6.2 HBase521

13.6.3 实例:HBase在Streamy.com的使用522

13.7 Praxis524

13.7.1 版本524

13.7.2 HDFS525

13.7.3 用户界面526

13.7.4 度量526

13.7.5 模式的设计526

13.7.6 计数器527

13.7.7 批量加载528

第14章 关于ZooKeeper529

14.1 安装和运行ZooKeeper530

14.2 示例532

14.2.1 ZooKeeper中的组成员关系533

14.2.2 创建组534

14.2.3 加入组536

14.2.4 列出组成员537

14.2.5 删除组539

14.3 ZooKeeper服务540

14.3.1 数据模型540

14.3.2 操作543

14.3.3 实现548

14.3.4 一致性549

14.3.5 会话552

14.3.6 状态554

14.4 使用ZooKeeper来构建应用555

14.4.1 配置服务555

14.4.2 可复原的ZooKeeper应用559

14.4.3 锁服务563

14.4.4 更多分布式数据结构和协议565

14.5 生产环境中的ZooKeeper567

14.5.1 可恢复性和性能567

14.5.2 配置568

第15章 关于Sqoop571

15.1 获取Sqoop571

15.2 Sqoop连接器573

15.3 一个导入的例子573

15.4 生成代码577

15.5 深入了解数据库导入578

15.5.1 导入控制580

15.5.2 导入和一致性581

15.5.3 直接模式导入581

15.6 使用导入的数据581

15.7 导入大对象585

15.8 执行导出587

15.9 深入了解导出功能589

15.9.1 导出与事务590

15.9.2 导出和SequenceFile591

第16章 实例学习593

16.1 Hadoop在Last.fm的应用593

16.1.1 Last.fm:社会音乐史上的革命593

16.1.2 Hadoop在Last.fm中的应用593

16.1.3 用Hadoop制作图表594

16.1.4 Track Statistics程序595

16.1.5 总结602

16.2 Hadoop和Hive在Facebook的应用603

16.2.1 Hadoop在Facebook的使用603

16.2.2 虚构的使用样例606

16.2.3 Hive609

16.2.4 存在的问题与未来工作计划613

16.3 Nutch搜索引擎615

16.3.1 背景介绍615

16.3.2 数据结构616

16.3.3 Nutch系统利用Hadoop进行数据处理的精选实例619

16.3.4 总结630

16.4 Rackspace的日志处理631

16.4.1 要求/问题631

16.4.2 简史632

16.4.3 选择Hadoop632

16.4.4 收集和存储632

16.4.5 对日志的MapReduce处理634

16.5 关于Cascading640

16.5.1 字段、元组和管道641

16.5.2 操作644

16.5.3 Tap、Scheme和Flow645

16.5.4 Cascading实战646

16.5.5 灵活性650

16.5.6 Hadoop和Cascading在ShareThis的应用650

16.5.7 总结655

16.6 Apache Hadoop上万亿数量级排序655

16.7 用Pig和Wukong探索10亿数量级边的网络图659

16.7.1 社区判断661

16.7.2 每个人都在和我说话:Twitter回复关系图661

16.7.3 对称链接664

16.7.4 社区提取666

附录A 安装Apache Hadoop669

附录B 关于CDH675

附录C 准备NCDC气象数据677

热门推荐