图书介绍

大数据处理PDF|Epub|txt|kindle电子书版本网盘下载

大数据处理
  • 金海,石宣化主编 著
  • 出版社: 北京:高等教育出版社
  • ISBN:9787040509359
  • 出版时间:2018
  • 标注页数:325页
  • 文件大小:43MB
  • 文件页数:339页
  • 主题词:数据处理-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据处理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据处理基础1

1.1 大数据特征1

1.1.1 基本特征1

1.1.2 数据模型3

1.2 大数据存储模式5

1.2.1 分布式文件系统5

1.2.2 大数据存储形式8

1.2.3 大数据存储实例9

1.3 大数据处理模式10

1.3.1 并行处理10

1.3.2 分布式处理13

1.3.3 控制流的处理18

1.3.4 数据流的处理20

1.4 大数据编程模式21

1.4.1 批处理21

1.4.2 流处理21

1.4.3 交互式数据处理22

1.4.4 图处理23

1.5 大数据处理体系结构23

1.5.1 数据中心24

1.5.2 数据中心体系结构24

1.5.3 数据中心的网络拓扑结构27

1.6 本章小结与全书内容组织31

参考文献32

习题32

第2章 大数据存储基础33

2.1 分布式存储系统简介33

2.1.1 分布式存储系统的基本概念34

2.1.2 数据分布35

2.1.3 复制与一致性38

2.1.4 容错机制40

2.1.5 可扩展性41

2.2 分布式文件系统43

2.2.1 分布式文件系统概述43

2.2.2 HDFS的系统架构45

2.2.3 数据分布48

2.2.4 复制与一致性50

2.2.5 容错机制51

2.2.6 读写流程54

2.3 分布式键值系统57

2.3.1 分布式键值系统概述57

2.3.2 Dynamo概述57

2.3.3 数据分布59

2.3.4 复制与一致性60

2.3.5 容错机制63

2.3.6 负载均衡65

2.3.7 读写流程67

2.4 新型存储器件驱动的内存系统68

2.4.1 内存系统对大数据处理的重要性68

2.4.2 非易失性存储器70

2.4.3 异构内存系统73

2.5 本章小结75

参考文献76

习题76

第3章 大数据管理基础77

3.1 大数据管理挑战概述77

3.1.1 面向数据管理的大数据特征77

3.1.2 大数据的管理需求79

3.2 大数据的划分81

3.2.1 数据划分方法81

3.2.2 数据一致性理论84

3.3 大数据的组织管理方式88

3.3.1 关系数据库89

3.3.2 Key-Value数据库92

3.3.3 列族数据库94

3.3.4 文档数据库96

3.3.5 图数据库99

3.4 大数据仓库系统106

3.4.1 数据仓库的发展历史108

3.4.2 大数据仓库的特性114

3.4.3 实例:Hive分析118

3.4.4 大数据仓库的未来128

3.5 本章小结129

参考文献129

习题129

第4章 大数据编程131

4.1 函数式编程131

4.1.1 函数式编程的起源131

4.1.2 函数式语言家族成员133

4.1.3 函数式编程的概念及特点137

4.2 MapReduce编程143

4.2.1 MapReduce的起源143

4.2.2 MapReduce的工作原理145

4.2.3 MapReduce的主要特点148

4.3 MapReduce案例研究151

4.3.1 WordCount程序分析151

4.3.2 PageRank程序分析155

4.4 本章小结161

参考文献161

习题161

第5章 大数据流处理163

5.1 流处理基础和应用163

5.1.1 流处理概述163

5.1.2 流处理应用166

5.2 分布式流计算169

5.2.1 数据封装169

5.2.2 建立应用拓扑171

5.2.3 指定操作的并行度172

5.2.4 指定数据分组与传输方式173

5.2.5 本节小节174

5.3 开源系统及编程模型175

5.3.1 Apache Storm175

5.3.2 Spark Streaming180

5.3.3 Apache Flink184

5.4 流处理系统机制及优化188

5.4.1 流处理调度及优化188

5.4.2 流处理一致性语义192

5.4.3 流处理容错195

参考文献197

习题197

第6章 图计算199

6.1 图计算背景199

6.1.1 图计算简介199

6.1.2 图计算特点201

6.1.3 图计算实例201

6.2 图计算并行编程模型202

6.2.1 以点为中心的编程模型202

6.2.2 以边为中心的编程模型205

6.2.3 以路径为中心的编程模型205

6.2.4 以子图为中心的编程模型208

6.3 图划分和通信209

6.3.1 图划分策略210

6.3.2 消息推送机制212

6.4 单机图计算系统215

6.4.1 内存图计算系统216

6.4.2 核外图计算系统220

6.5 图计算硬件加速技术229

6.5.1 基于GPU的图计算加速技术229

6.5.2 基于MIC的图计算加速技术233

6.5.3 基于FPGA的图计算加速技术234

6.5.4 基于ASIC的图计算加速技术236

6.6 图算法案例239

6.6.1 图拓扑属性算法240

6.6.2 图数据管理和查询算法244

6.7 图计算性能评价246

6.8 本章小结251

参考文献251

习题252

第7章 大数据系统管理255

7.1 统一资源管理255

7.1.1 统一资源管理的设计思想257

7.1.2 统一资源管理的基本架构258

7.1.3 统一资源管理的工作流程260

7.2 大数据系统资源调度265

7.2.1 资源调度系统的架构265

7.2.2 典型调度算法268

7.3 大数据系统的协调技术274

7.3.1 协调系统的架构与原理274

7.3.2 复制状态机模型278

7.3.3 分布式一致性算法279

7.4 案例研究282

7.4.1 YARN283

7.4.2 ZooKeeper286

7.5 本章小结289

参考文献290

习题290

第8章 大数据系统优化技术291

8.1 存储优化292

8.1.1 数据局部性优化292

8.1.2 服务可扩展性优化298

8.2 调度优化301

8.2.1 调度模型301

8.2.2 数据本地化302

8.2.3 负载均衡304

8.2.4 拖后腿问题与推测执行307

8.3 运行时优化310

8.3.1 中间结果缓存310

8.3.2 序列化开销优化313

8.4 本章小结319

参考文献320

习题320

第9章 大数据资源链接321

重要名词索引323

热门推荐