图书介绍

实时分析流数据的分析与可视化技术PDF|Epub|txt|kindle电子书版本网盘下载

（美）拜伦·埃利斯著；王晓伟译著
出版社：北京：机械工业出版社
ISBN：7111532163
出版时间：2016
标注页数：302页
文件大小：48MB
文件页数：317页
主题词：数据处理

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：a783f23a990a531ec8e09d8d71ecee1e

下载说明

实时分析流数据的分析与可视化技术PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章流数据简介1

1.1流数据的来源2

1.1.1运行监控2

1.1.2 Web分析2

1.1.3在线广告3

1.1.4社交媒体3

1.1.5移动数据和物联网4

1.2流数据的特别之处5

1.2.1始终在线，持续流动5

1.2.2松散结构5

1.2.3高基数的存储6

1.3基础架构和算法6

1.4总结7

第一部分流分析架构10

第2章实时流架构设计10

2.1实时架构的组件10

2.1.1数据采集11

2.1.2数据流程11

2.1.3数据处理13

2.1.4数据存储13

2.1.5数据交付14

2.2实时架构的特性16

2.2.1高可用性16

2.2.2低延迟17

2.2.3水平可扩展性17

2.3实时编程语言18

2.3.1 Java18

2.3.2 Scala和Clojure19

2.3.3 JavaScript19

2.3.4 Go语言20

2.4实时架构概览20

2.4.1数据采集20

2.4.2数据流程21

2.4.3数据处理21

2.4.4数据存储21

2.4.5数据交付22

2.5总结22

第3章服务配置和协调24

3.1配置和协调系统的研发动机24

3.2维护分布式状态25

3.2.1不可靠的网络连接25

3.2.2时钟同步25

3.2.3不可靠环境下的一致性25

3.3 Apache ZooKeeper26

3.3.1 znode27

3.3.2监视和通知28

3.3.3保持一致性28

3.3.4创建ZooKeeper集群28

3.3.5 ZooKeeper本地Java客户端33

3.3.6 Curator客户端39

3.3.7 Curator Recipes组件45

3.4总结50

第4章流分析中的数据流程管理52

4.1分布式数据流程52

4.1.1至少交付一次52

4.1.2 “n ＋ 1”问题53

4.2 Apache Kafka：高吞吐量分布式消息机制54

4.2.1设计与实现54

4.2.2配置Kafka环境57

4.2.3与Kafka代理交互65

4.3 Apache Flume：分布式日志采集系统66

4.3.1 Flume agent67

4.3.2配置agent68

4.3.3 Flume数据模型68

4.3.4 channel选择器69

4.3.5 Flume source71

4.3.6 Flume sink78

4.3.7 sink processor80

4.3.8 Flume channel80

4.3.9 Flume Interceptor81

4.3.10集成定制Flume组件83

4.3.11运行Flume agent83

4.4总结83

第5章流数据的处理85

5.1分布式流数据处理85

5.1.1协调86

5.1.2分区和融合86

5.1.3事务86

5.2用Storm处理数据86

5.2.1 Storm集群的组件87

5.2.2配置Storm集群88

5.2.3分布式集群89

5.2.4本地集群92

5.2.5 Storm拓扑92

5.2.6实现bolt95

5.2.7实现并使用spout99

5.2.8分布式远程过程调用104

5.2.9 Trident： Storm的DSL105

5.3用Samza处理数据111

5.3.1 Apache YARN111

5.3.2从YARN和Samza开始112

5.3.3将Samza集成进数据流程115

5.3.4 Samza作业116

5.4总结122

第6章流数据的存储123

6.1一致性哈希123

6.2 “NoSQL”存储系统124

6.2.1 Redis125

6.2.2 MongoDB132

6.2.3 Cassandra150

6.3其他存储技术159

6.3.1关系数据库160

6.3.2分布式内存数据网格160

6.4存储技术的选择160

6.4.1键-值存储160

6.4.2文档存储160

6.4.3分布式哈希表存储161

6.4.4内存网格161

6.4.5关系数据库161

6.5数据仓库161

6.5.1将Hadoop作为ETL和数据仓库162

6.5.2 Lambda架构166

6.6总结166

第二部分流分析与可视化168

第7章流度量的交付168

7.1流Web应用168

7.1.1使用Node169

7.1.2用NPM管理Node项目171

7.1.3基于Node开发Web应用174

7.1.4基本的流仪表板176

7.1.5向Web应用加入流180

7.2数据可视化190

7.2.1 HTML5 Canvas和内联SVG190

7.2.2数据驱动文档：D3 js196

7.2.3高层工具204

7.3移动流应用208

7.4总结209

第8章精确的聚集计算和交付211

8.1定时计数与求和214

8.1.1基于Bolt的计数214

8.1.2基于Trident的计数216

8.1.3基于Samza的计数217

8.2多分辨率时间序列的聚集计算218

8.3随机优化222

8.4时间序列数据的交付223

8.4.1用D3 js绘制带状图224

8.4.2高速Canvas图225

8.4.3地平线图226

8.5总结227

第9章流数据的统计近似229

9.1数值计算库229

9.2概率和分布230

9.2.1期望和方差231

9.2.2统计分布232

9.2.3离散分布232

9.2.4连续分布233

9.2.5联合分布235

9.3参数估计236

9.3.1参数推断236

9.3.2 Delta方法237

9.3.3分布不等式238

9.4随机数产生器238

9.5抽样过程242

9.5.1从固定数据集中抽样242

9.5.2从流数据中抽样243

9.5.3有偏流抽样244

9.6总结245

第10章使用略图近似流数据246

10.1寄存器和哈希函数246

10.1.1寄存器247

10.1.2哈希函数247

10.2集合249

10.3 Bloom Filter251

10.3.1算法251

10.3.2 Bloom Filter大小的选择253

10.3.3并集和交集253

10.3.4基数估计254

10.3.5有趣的变体255

10.4 Distinct Value略图258

10.4.1 Min-Count算法258

10.4.2 HyperLogLog算法260

10.5 Count-Min略图264

10.5.1点查询265

10.5.2 Count-Min略图的实现265

10.5.3 Top-K和“Heavy Hitters”266

10.5.4范围查询和分位数查询268

10.6其他应用270

10.7总结271

第11章流数据的应用272

11.1实时数据模型273

11.1.1简单时间序列模型273

11.1.2线性模型276

11.1.3逻辑回归280

11.1.4神经网络模型281

11.2用模型预测289

11.2.1指数平滑法289

11.2.2回归法291

11.2.3神经网络法293

11.3监控294

11.3.1离群点检测294

11.3.2变化检测296

11.4实时优化297

11.5总结298

图书介绍

实时分析 流数据的分析与可视化技术PDF|Epub|txt|kindle电子书版本网盘下载

PDF下载

下载说明

实时分析 流数据的分析与可视化技术PDF格式电子书版下载

图书目录

热门推荐

实时分析流数据的分析与可视化技术PDF|Epub|txt|kindle电子书版本网盘下载

实时分析流数据的分析与可视化技术PDF格式电子书版下载