图书介绍

数据挖掘原理、算法与应用PDF|Epub|txt|kindle电子书版本网盘下载

数据挖掘原理、算法与应用
  • 梁亚声,徐欣,成小菊,梁佳领,朱霞编著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111496328
  • 出版时间:2015
  • 标注页数:322页
  • 文件大小:78MB
  • 文件页数:333页
  • 主题词:数据采集-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

数据挖掘原理、算法与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 概述1

1.1 从数据中获取知识1

1.2 数据挖掘的基本概念2

1.3 数据挖掘的发展历程2

1.4 数据挖掘的功能和数据挖掘系统的分类4

1.4.1 分类与回归4

1.4.2 聚类分析4

1.4.3 关联规则5

1.4.4 时序模式5

1.4.5 异常检测6

1.4.6 数据挖掘系统的分类6

1.5 数据挖掘的过程6

1.5.1 数据挖掘的一般流程7

1.5.2 跨行业数据挖掘标准过程9

1.6 数据挖掘与其他学科的关系12

1.6.1 数据挖掘与数据库知识发现12

1.6.2 数据挖掘与数据库查询13

1.6.3 数据挖掘与统计分析13

1.6.4 数据挖掘与数据仓库14

1.6.5 数据挖掘与联机分析处理15

1.6.6 数据挖掘与人工智能、专家系统、机器学习15

1.7 数据挖掘的应用和发展趋势17

1.7.1 商业的数据挖掘17

1.7.2 金融业的数据挖掘17

1.7.3 欺诈侦测中的数据挖掘18

1.7.4 DNA数据分析中的数据挖掘18

1.7.5 电信业中的数据挖掘19

1.7.6 科学和统计数据挖掘20

1.7.7 数据挖掘系统和软件21

1.7.8 数据挖掘的发展趋势22

1.8 小结23

1.9 习题24

第2章 数据存储25

2.1 关系数据集25

2.2 数据仓库27

2.2.1 数据仓库的概念和特点27

2.2.2 数据仓库的数据组织29

2.2.3 数据仓库的关键技术32

2.2.4 数据仓库与数据挖掘的关系34

2.3 NoSQL数据库35

2.3.1 NoSQL概念与理论35

2.3.2 NoSQL数据模型37

2.3.3 NoSQL与关系数据库38

2.4 分布式文件系统40

2.4.1 分布式文件系统的历史40

2.4.2 分布式文件系统的体系结构44

2.4.3 谷歌文件系统(GoogleFS)46

2.4.4 Hadoop分布式文件系统(HDFS)53

2.5 小结59

2.6 习题60

第3章 数据预处理61

3.1 数据预处理的必要性61

3.2 数据清理62

3.2.1 缺失数据处理方法62

3.2.2 噪声数据平滑技术63

3.2.3 时间相关数据的处理64

3.3 数据集成66

3.3.1 实体识别与匹配67

3.3.2 冗余和相关分析67

3.3.3 元组重复数据的检测70

3.3.4 冲突数据的检测与处理70

3.4 数据转换70

3.4.1 数据标准化70

3.4.2 数据泛化71

3.5 数据归约73

3.5.1 数据立方体聚集73

3.5.2 维度归约74

3.5.3 数据压缩75

3.5.4 数值归约77

3.6 数据离散化81

3.6.1 分箱方法81

3.6.2 直方图分析82

3.6.3 基于熵的离散化82

3.6.4 ChiMerge技术83

3.6.5 人工划分分段85

3.7 特征提取、选择和构造87

3.7.1 特征提取87

3.7.2 特征选择89

3.7.3 特征构造92

3.8 小结92

3.9 习题93

第4章 数据相似度与异常检测94

4.1 相似度度量94

4.1.1 对象与属性类型94

4.1.2 相似度度量的定义96

4.1.3 由距离度量变换而来的相似度度量96

4.1.4 属性之间的相似度度量97

4.1.5 对象之间的相似度度量98

4.2 传统度量方法98

4.2.1 二值属性的相似度度量98

4.2.2 欧氏距离99

4.2.3 余弦距离100

4.2.4 Mahalanobis距离101

4.2.5 Jaccard距离102

4.2.6 海明距离102

4.3 大数据度量方法102

4.3.1 文档的Shingling103

4.3.2 局部敏感散列算法106

4.4 异常检测110

4.4.1 基于统计的检测方法113

4.4.2 基于距离的检测方法120

4.4.3 基于密度的检测方法123

4.4.4 基于聚类的检测方法125

4.4.5 基于分类的检测方法130

4.4.6 高维数据中的异常点检测131

4.5 小结134

4.6 习题134

第5章 数据分类和预测136

5.1 分类和预测的基本概念136

5.1.1 准备数据137

5.1.2 分类和预测方法的评估标准138

5.2 决策树分类138

5.2.1 ID3算法生成决策树139

5.2.2 C4.5 算法生成决策树144

5.2.3 CART算法和Gini指标149

5.2.4 决策树归纳的可扩展性152

5.2.5 数据仓库与决策树153

5.2.6 决策树和决策规则的局限性155

5.3 贝叶斯分类156

5.3.1 贝叶斯定理156

5.3.2 朴素贝叶斯分类156

5.3.3 贝叶斯信念网络159

5.3.4 训练贝叶斯信念网络160

5.4 神经网络161

5.4.1 多层前馈神经网络161

5.4.2 定义神经网络的拓扑结构162

5.4.3 后向传播162

5.4.4 后向传播和可理解性165

5.5 其他分类方法167

5.5.1 基于关联的分类方法167

5.5.2 K-最近邻分类168

5.5.3 基于案例推理169

5.5.4 遗传算法169

5.5.5 粗糙集方法170

5.5.6 模糊集合方法170

5.6 预测算法171

5.6.1 预测算法分类171

5.6.2 预测算法选择172

5.6.3 线性和多元回归173

5.6.4 非线性回归174

5.6.5 其他回归模型175

5.7 分类预测应用实例175

5.7.1 样本选取176

5.7.2 建立预测模型176

5.7.3 模型评估178

5.7.4 实用价值178

5.8 小结178

5.9 习题179

第6章 数据聚类分析180

6.1 基本概念180

6.1.1 对聚类分析的要求180

6.1.2 聚类分析方法分类181

6.2 划分聚类算法182

6.2.1 K-means算法(基于质心的技术)182

6.2.2 K-medoids算法(基于代表对象的技术)183

6.3 层次聚类算法185

6.3.1 BIRCH算法186

6.3.2 CURE算法187

6.3.3 ROCK算法188

6.3.4 Chameleon算法189

6.4 基于密度的聚类算法191

6.4.1 DBSCAN算法191

6.4.2 OPTICS算法193

6.4.3 DENCLUE算法195

6.5 基于网格的聚类算法197

6.5.1 STING算法197

6.5.2 WaveCluster算法198

6.5.3 CLIQUE算法200

6.6 基于模型的聚类算法201

6.6.1 EM算法202

6.6.2 COBWEB算法203

6.6.3 SOM算法205

6.7 聚类评估205

6.7.1 估计聚类趋势206

6.7.2 确定簇数206

6.7.3 测定聚类质量207

6.8 聚类分析应用实例209

6.8.1 问题理解与提出209

6.8.2 数据收集与选择210

6.8.3 数据预处理210

6.8.4 应用K-means聚类算法建模210

6.9 小结211

6.10 习题212

第7章 数据关联分析213

7.1 数据关联分析的基本概念213

7.2 频繁项集产生214

7.2.1 先验原理215

7.2.2 Apriori算法的频繁项集产生216

7.2.3 支持度计数220

7.2.4 计算复杂度222

7.3 规则产生222

7.3.1 基本步骤223

7.3.2 Apriori算法中规则的产生223

7.4 频繁项集的紧凑表示224

7.4.1 最大频繁项集224

7.4.2 闭频繁项集225

7.5 产生频繁项集的其他方法226

7.5.1 项集格遍历226

7.5.2 事务数据集的表示228

7.6 FP-Growth算法229

7.6.1 FP树构造229

7.6.2 频繁项集产生231

7.7 关联评估233

7.7.1 兴趣度客观度量233

7.7.2 多个二元变量的度量237

7.7.3 倾斜支持度分布的影响237

7.8 关联分析应用实例239

7.8.1 关联分析学生成绩239

7.8.2 数据处理240

7.8.3 算法的应用240

7.8.4 挖掘结果的分析241

7.9 小结241

7.10 习题242

第8章 性能评估和提升243

8.1 评分函数243

8.1.1 预测性评分函数243

8.1.2 描述性评分函数247

8.1.3 一致性评价247

8.2 成本评价249

8.2.1 成本评价曲线249

8.2.2 Cost-Sensitive学习252

8.3 复杂度评估254

8.4 验证255

8.4.1 交叉验证255

8.4.2 Bootstrap256

8.4.3 模型比较256

8.5 性能提升257

8.5.1 效率提升257

8.5.2 准确率提升261

8.6 小结266

8.7 习题266

第9章 复杂数据挖掘268

9.1 文本数据挖掘268

9.1.1 文本数据预处理269

9.1.2 文本数据挖掘技术270

9.1.3 文本数据挖掘的应用271

9.2 图像数据挖掘272

9.2.1 图像数据的特点和挖掘技术现状273

9.2.2 图像数据预处理274

9.2.3 图像数据挖掘技术275

9.2.4 图像数据挖掘的应用278

9.3 语音识别挖掘279

9.3.1 语音数据特点及挖掘技术现状280

9.3.2 语音信号预处理280

9.3.3 语音识别技术282

9.3.4 语音识别技术的应用284

9.4 视频数据挖掘284

9.4.1 视频数据特点及挖掘技术现状285

9.4.2 视频数据预处理286

9.4.3 视频数据挖掘技术286

9.4.4 视频数据挖掘的应用288

9.5 网络拓扑挖掘290

9.5.1 拓扑发现的技术现状及网络数据的采集290

9.5.2 基于挖掘技术的网络拓扑发现293

9.6 网络舆情挖掘296

9.6.1 舆情研究发展现状及舆情特点297

9.6.2 网络舆情数据预处理298

9.6.3 网络舆情挖掘技术299

9.7 推荐系统303

9.7.1 推荐系统发展现状304

9.7.2 相关技术304

9.7.3 推荐系统308

9.8 空间数据挖掘309

9.8.1 空间数据的特点310

9.8.2 空间数据预处理310

9.8.3 空间数据挖掘技术311

9.8.4 空间数据挖掘工具315

9.9 数据流挖掘316

9.9.1 数据流的特点316

9.9.2 数据流预处理317

9.9.3 数据流挖掘技术317

9.9.4 数据流挖掘技术的应用318

9.10 小结319

9.11 习题319

参考文献321

热门推荐