图书介绍
云计算与大数据技术理论及应用PDF|Epub|txt|kindle电子书版本网盘下载
![云计算与大数据技术理论及应用](https://www.shukui.net/cover/33/32420631.jpg)
- 林伟伟,彭绍亮主编 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302524458
- 出版时间:2019
- 标注页数:470页
- 文件大小:184MB
- 文件页数:483页
- 主题词:云计算-数据处理-教材
PDF下载
下载说明
云计算与大数据技术理论及应用PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 绪论1
1.1 分布式计算概念1
1.1.1 定义1
1.1.2 优缺点1
1.1.3 经典的分布式计算项目2
1.2 分布式计算模式4
1.2.1 单机计算5
1.2.2 并行计算5
1.2.3 网络计算6
1.2.4 对等计算6
1.2.5 集群计算7
1.2.6 网格计算7
1.2.7 云计算7
1.2.8 雾计算8
1.2.9 边缘计算9
1.2.10 大数据计算9
1.3 CAP定理11
1.3.1 CAP定理历史11
1.3.2 CAP定理应用12
1.3.3 CAP问题的实例13
习题14
第2章 分布式计算编程基础15
2.1 进程间通信15
2.1.1 进程间通信概念15
2.1.2 IPC原型与示例16
2.2 Socket编程17
2.2.1 Socket概述17
2.2.2 流式Socket编程18
2.3 RMI编程25
2.3.1 RMI概述25
2.3.2 RMI基本分布式应用26
2.4 P2P编程35
习题44
第3章 云计算原理与技术47
3.1 云计算概述47
3.1.1 云计算起源47
3.1.2 云计算的概念与定义48
3.1.3 云计算与分布式计算49
3.1.4 云计算分类51
3.2 云计算关键技术54
3.2.1 体系结构54
3.2.2 数据存储56
3.2.3 计算模型58
3.2.4 资源调度59
3.2.5 虚拟化60
3.3 Google云计算原理61
3.3.1 GFS61
3.3.2 MapReduce61
3.3.3 BigTable63
3.3.4 Dremel66
3.4 亚马逊云服务69
3.4.1 亚马逊云平台存储架构69
3.4.2 EC2、S3、SimpleDB等组件70
3.5 基于亚马逊云的大数据分析案例76
3.5.1 亚马逊云平台存储架构76
3.5.2 亚马逊云的Web服务器日志大数据分析案例79
3.6 阿里云93
3.6.1 飞天开放平台架构93
3.6.2 开放云计算服务ECS96
3.6.3 开放存储服务OSS和CDN97
3.6.4 开放结构化数据服务OTS99
3.6.5 关系型数据库(RDS)101
3.6.6 开放数据处理服务(ODPS)101
习题103
第4章 云计算编程实践104
4.1 CloudSim体系结构和API介绍104
4.1.1 CloudSim体系结构104
4.1.2 CloudSim 3.0 API介绍110
4.2 CloudSim环境搭建和使用方法113
4.2.1 环境配置114
4.2.2 运行样例程序114
4.3 CloudSim扩展编程117
4.3.1 调度策略的扩展118
4.3.2 仿真核心代码120
4.3.3 平台重编译124
4.4 CloudSim的编程实践125
4.4.1 CloudSim任务调度编程125
4.4.2 CloudSim网络编程132
4.4.3 CloudSim能耗编程135
4.5 MultiRECloudSim147
4.5.1 MultiRECloudSim体系结构和原理147
4.5.2 MultiRECloudSim的API153
4.5.3 MultiRECloudSim的使用方法156
4.6 云环境任务调度编程实践170
4.6.1 云计算的资源管理170
4.6.2 云任务调度模拟实验173
习题180
第5章 云存储技术182
5.1 存储基础知识182
5.1.1 存储组网形态182
5.1.2 RAID187
5.1.3 磁盘热备194
5.1.4 快照195
5.1.5 数据分级存储概念196
5.2 云存储概念与技术原理197
5.2.1 分布式存储198
5.2.2 存储虚拟化204
5.3 对象存储技术208
5.3.1 对象存储架构208
5.3.2 传统块存储与对象存储209
5.3.3 对象209
5.3.4 对象存储系统组成211
5.4 存储技术趋势213
5.4.1 存储虚拟化213
5.4.2 固态硬盘213
5.4.3 重复数据删除214
5.4.4 语义化检索214
5.4.5 存储智能化214
5.4.6 混合存储系统215
习题215
第6章 大数据技术原理与平台216
6.1 大数据概述216
6.1.1 大数据产生的背景216
6.1.2 大数据的定义216
6.1.3 大数据的4V特征217
6.2 大数据存储平台217
6.2.1 HDFS217
6.2.2 HBase226
6.2.3 Cassandra237
6.2.4 Redis245
6.2.5 MongoDB251
6.3 大数据计算模式259
6.3.1 MapReduce259
6.3.2 Spark264
6.3.3 流式计算272
6.4 典型大数据分析管理平台278
6.4.1 Cloudera Impala279
6.4.2 Hortonworks Data Platform281
6.4.3 HadoopDB298
6.5 大数据并行计算编程实践300
6.5.1 基于MAPREDUCE程序实例(HDFS)300
6.5.2 基于MAPREDUCE程序实例(HBase)307
6.5.3 基于Spark的程序实例311
6.5.4 基于Impala的查询实践316
6.6 大数据研究与发展方向318
6.6.1 数据的不确定性与数据质量318
6.6.2 跨领域的数据处理方法的可移植性319
6.6.3 数据处理的时效性保证——内存计算319
6.6.4 对于流式数据的实时处理320
6.6.5 大数据应用321
6.6.6 大数据发展趋势323
习题324
第7章 实时医疗大数据分析案例326
7.1 案例背景与需求概述326
7.1.1 背景介绍326
7.1.2 基本需求326
7.2 设计方案328
7.2.1 ETL328
7.2.2 非格式化存储329
7.2.3 流处理329
7.2.4 训练模型与结果预测329
7.3 环境准备329
7.3.1 节 点规划330
7.3.2 软件选型331
7.4 实现方法332
7.4.1 使用Kettle/Sqoop等ETL工具,将数据导入HDFS332
7.4.2 基于Spark Streaming开发Kafka连接器组件338
7.4.3 基于Spark MLlib开发数据挖掘组件345
7.5 不足与扩展349
习题350
第8章 保险大数据分析案例351
8.1 案例背景与需求概述351
8.1.1 背景介绍351
8.1.2 基本需求351
8.2 设计方案354
8.2.1 基于GraphX的并行家谱挖掘算法354
8.2.2 基于分片技术的随机森林算法356
8.2.3 基于内存计算的FP-Growth关联规则挖掘算法359
8.3 环境准备360
8.4 实现方法365
8.4.1 基于GraphX的并行家谱挖掘365
8.4.2 基于分片技术的随机森林模型用户推荐367
8.4.3 基于FP-Growth关联规则挖掘算法的回归检验371
8.4.4 结果可视化376
8.5 不足与扩展381
习题382
第9章 基于Spark聚类算法的网络流量异常检测383
9.1 基本需求与数据说明383
9.1.1 基本需求383
9.1.2 数据说明384
9.2 设计方案386
9.2.1 聚类问题描述386
9.2.2 系统整体架构和算法设计386
9.2.3 数据预处理387
9.2.4 聚类算法388
9.2.5 聚类质量评估算法388
9.2.6 检测算法389
9.3 实现方法和程序设计389
9.3.1 搭建Spark集群实验平台390
9.3.2 程序运行说明390
9.3.3 数据预处理391
9.3.4 基于R的数据分析和可视化392
9.3.5 聚类算法394
9.3.6 聚类质量评估394
9.3.7 异常检测395
9.4 结果展示396
9.4.1 Spark平台说明与作业提交演示396
9.4.2 聚类算法及其质量评估397
9.4.3 有效性分析398
9.4.4 示例说明399
9.5 展望399
习题400
第10章 基于Hadoop的宏基因组序列比对计算401
10.1 相关背景介绍与基本需求401
10.1.1 相关背景401
10.1.2 基本需求404
10.2 设计方案404
10.2.1 串行程序分析404
10.2.2 并行程序设计405
10.3 实现方法406
10.3.1 自定义Hadoop Streaming Inputformat406
10.3.2 修改SOAPaligner程序的输入文件函数408
10.4 环境建立和实验数据说明410
10.4.1 案例环境410
10.4.2 实验数据410
10.5 结果展示411
10.5.1 测试方法411
10.5.2 测试结果和分析412
习题412
第11章 基于细胞反应大数据的生物效应评估计算413
11.1 相关背景介绍与基本需求413
11.1.1 相关背景413
11.1.2 基本需求414
11.2 设计方案414
11.2.1 基本思路414
11.2.2 设计框架415
11.3 环境建立和实验数据说明416
11.3.1 案例环境416
11.3.2 实验数据417
11.4 实现方法418
11.4.1 算法分析418
11.4.2 基因谱两两比对——富集积分矩阵并行化计算422
11.4.3 基因谱聚类分析——KMedoids算法并行化428
11.5 结果展示429
11.5.1 基因谱两两比对——计算富集积分矩阵实验分析429
11.5.2 基因谱聚类实验分析431
习题432
第12章 基于Spark的海量宏基因组聚类问题分析计算433
12.1 相关背景介绍与基本需求433
12.1.1 相关背景433
12.1.2 基本需求442
12.2 问题分析与设计方案444
12.2.1 问题分析444
12.2.2 设计方案446
12.3 实现方法446
12.3.1 基于Spark的相似基因对问题的实现446
12.3.2 利用LSH加速相似基因对算法447
12.3.3 基因图的生成450
12.3.4 图的基本性质分析451
12.3.5 基因图聚类451
12.4 环境建立和实验数据说明454
12.4.1 案例环境454
12.4.2 实验数据454
12.5 结果展示454
12.5.1 LSH方法精确度分析454
12.5.2 可扩展性分析和加速效果分析456
12.5.3 基因图顶点的度分布和连通性分析458
12.5.4 基因图聚类结果分析459
12.5.5 总结461
习题462
参考文献463