图书介绍

大数据分析 数据挖掘必备算法示例详解PDF|Epub|txt|kindle电子书版本网盘下载

大数据分析 数据挖掘必备算法示例详解
  • 张重生编著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111555469
  • 出版时间:2017
  • 标注页数:246页
  • 文件大小:37MB
  • 文件页数:257页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据分析 数据挖掘必备算法示例详解PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 数据分析绪论1

1.1 理解数据中字段的类型是数据分析的重要前提1

1.2 进行数据分析时数据的表示形式2

1.3 数据分类——数据类别的自动识别2

1.4 数据分类问题与回归问题的区别与联系2

1.5 数据分析算法简介4

1.6 交叉验证4

1.7 一个最简单的分类器-K近邻分类器6

1.8 后续章节组织6

参考文献7

第2章 SVM算法8

2.1 算法原理8

2.2 工具包简介10

2.2.1 LibSVM的安装10

2.2.2 LibSVM的使用10

2.3 实例详解12

参考文献13

第3章 决策树算法14

3.1 信息熵值14

3.2 决策树的构建目标14

3.3 ID3决策树算法15

3.4 C4.5决策树算法16

3.5 CART决策树算法17

3.6 ID3、C4.5、CART算法的终止条件17

3.7 C4.5算法的参数介绍18

3.8 实例详解18

参考文献20

第4章 随机森林算法21

4.1 算法原理21

4.2 工具包介绍22

4.3 实例详解23

参考文献24

第5章 梯度提升决策树算法25

5.1 算法原理25

5.2 工具包介绍28

5.3 实例详解29

参考文献31

第6章 AdaBoost算法32

6.1 算法原理32

6.2 工具包介绍36

6.3 实例详解38

参考文献42

第7章 朴素贝叶斯分类器43

7.1 朴素贝叶斯分类的问题定义43

7.2 朴素贝叶斯算法原理43

7.3 一种常见的朴素贝叶斯模型的错误计算方法47

7.4 朴素贝叶斯算法对连续型属性的处理48

参考文献49

第8章 极限学习机器算法50

8.1 算法原理50

8.2 算法参数介绍50

8.3 实例详解51

参考文献52

第9章 逻辑回归算法53

9.1 Logistic Regression算法流程53

9.1.1 Logistic Regression模型的训练53

9.1.2 Logistic Regression模型的预测54

9.2 Logistic Regression算法原理推导54

参考文献55

第10章 稀疏表示分类算法56

10.1 算法原理56

10.2 SRC工具包及算法参数介绍56

10.3 SRC算法实例详解57

参考文献58

第11章 不同数据分类算法性能的大规模实验对比分析59

11.1 为什么要比较不同数据分类算法的性能?59

11.2 不同数据分类算法性能比较的相关工作60

11.3 最新数据分类算法性能的大规模实验对比分析结果61

11.3.1 实验数据集及调参细节61

11.3.2 实验结果62

11.4 结论67

参考文献68

第12章 从二分类到多分类——OVA69

12.1 OVA聚合规则的核心思想69

12.2 MAX聚合规则70

12.3 DOO聚合规则72

12.4 调用示例75

参考文献78

第13章 从二分类到多分类——OVO79

13.1 OVO聚合规则的核心思想79

13.2 WV聚合规则80

13.3 VOTE聚合规则82

13.4 PC聚合规则83

13.5 PE聚合规则85

13.6 LVPC聚合规则87

13.7 调用示例88

参考文献91

第14章 从二分类到多分类——ECOC92

14.1 ECOC的核心思想92

14.2 ECOC编码93

14.2.1 ECOC OVA算法的编码步骤93

14.2.2 ECOC OVO算法的原理和源码赏析93

14.2.3 Sparse Dense Random算法的原理和源码赏析94

14.2.4 DECOC算法的原理和源码赏析96

14.2.5 Forest-ECOC算法的原理和源码赏析96

14.3 ECOC译码100

14.3.1 HD算法的原理和源码赏析100

14.3.2 LAP算法的原理和源码赏析101

14.4 ECOC多类分类调用示例101

参考文献106

第15章 三种从二分类到多分类聚合策略的实验对比分析107

15.1 OVA策略的实验结果107

15.2 OVO策略的实验结果111

15.3 ECOC策略的实验结果114

参考文献119

第16章 多个分类算法的集成方法研究120

16.1 差异性(Diversity)的原理与技术121

16.2 集成学习方法123

16.2.1 简单加权投票集成方法123

16.2.2 随机爬山算法125

16.2.3 集成前序算法和集成后序算法128

16.2.4 循环集成方法133

16.2.5 其他集成学习方法135

16.3 本章小结135

参考文献136

第17章 属性选择算法138

17.1 fspackage和LibSVM的使用138

17.1.1 程序包fspackage的使用方法138

17.1.2 分类器LibSV M的使用方法139

17.1.3 分类器LibSVM的调用实例140

17.2 信息增益算法142

17.2.1 算法原理142

17.2.2 代码讲解142

17.2.3 案例详解143

17.3 卡方分布算法145

17.3.1 卡方分布算法的原理145

17.3.2 卡方分布算法的使用148

17.3.3 案例详解148

17.4 基于Fisher Score的属性选择算法150

17.4.1 Fisher Score的原理150

17.4.2 代码讲解151

17.4.3 案例详解152

17.5 基于基厄系数的属性选择算法154

17.5.1 基厄系数的原理154

17.5.2 代码讲解155

17.5.3 案例详解156

17.6 基于T检验的属性选择算法158

17.6.1 T检验的原理158

17.6.2 代码讲解158

17.6.3 案例详解159

参考文献161

第18章 高级属性选择算法162

18.1 线性前向选择算法162

18.1.1 算法原理162

18.1.2 代码讲解163

18.1.3 案例详解164

18.2 顺序前向选择算法165

18.2.1 算法原理165

18.2.2 代码讲解165

18.2.3 案例详解170

18.3 基于稀疏多项式逻辑回归的属性选择算法171

18.3.1 算法原理171

18.3.2 代码讲解171

18.3.3 案例详解172

18.4 Our——多个属性选择算法的集成策略174

18.4.1 算法原理174

18.4.2 代码讲解174

18.4.3 案例详解175

18.4.4 our算法的优势177

18.5 属性选择算法的大规模实验对比分析177

18.5.1 实验数据177

18.5.2 属性选择算法结合LibSVM的测试179

18.5.3 属性选择算法结合C4.5的测试181

18.5.4 实验小结183

参考文献184

第19章 数据选择算法185

19.1 衡量不均衡数据分类质量的常用方法185

19.1.1 方法介绍185

19.1.2 代码讲解186

19.1.3 案例详解187

19.2 RUS算法188

19.2.1 算法原理188

19.2.2 代码讲解188

19.2.3 案例详解189

19.3 CNN算法191

19.3.1 算法原理191

19.3.2 代码讲解191

19.3.3 案例详解193

19.4 SMOTE算法194

19.4.1 算法原理194

19.4.2 代码讲解194

19.4.3 案例详解196

19.5 ADASYN算法197

19.5.1 算法原理197

19.5.2 代码讲解198

19.5.3 案例详解199

19.6 OSS算法200

19.6.1 算法原理200

19.6.2 代码讲解201

19.6.3 案例详解202

19.7 本章小结203

参考文献203

第20章 不均衡数据分类算法及大规模实验分析205

20.1 C4.5CS算法205

20.1.1 算法原理205

20.1.2 代码讲解205

20.1.3 案例详解213

20.2 使用Random Forests和GBDT进行不均衡数据分类214

20.2.1 Random Forests214

20.2.2 GBDT216

20.3 BalanceCascade不均衡数据分类算法216

20.4 其他不均衡数据分类算法及不均衡分类器的集成算法216

20.5 结合属性选择和数据选择的不均衡数据分类实验217

20.5.1 实验内容217

20.5.2 实验数据217

20.5.3 实验结果分析219

参考文献226

第21章 大数据分析227

21.1 Spark平台简介227

21.2 基于Ambari的Spark及Spark集群的安装与配置227

21.3 Ambari集群扩展234

21.4 基于Spark平台的分布式编程示例237

21.5 MLlib——Spark平台上的机器学习库239

21.5.1 Random Forest的MLlib实现239

21.5.2 Decision tree的MLlib实现241

参考文献244

后记245

热门推荐