图书介绍

机器学习实战PDF|Epub|txt|kindle电子书版本网盘下载

（美）PeterHarrington；李锐，李鹏，曲亚东，王斌译者著
出版社：北京：人民邮电出版社
ISBN：9787115317957
出版时间：2013
标注页数：316页
文件大小：166MB
文件页数：333页
主题词：机器学习－研究

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：e5055962bfad99a0f2d638f78a993501

下载说明

机器学习实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一部分分类2

第1章机器学习基础2

1.1何谓机器学习3

1.1.1传感器和海量数据4

1.1.2机器学习非常重要5

1.2关键术语5

1.3机器学习的主要任务7

1.4如何选择合适的算法8

1.5开发机器学习应用程序的步骤9

1.6 Python语言的优势10

1.6.1可执行伪代码10

1.6.2 Python比较流行10

1.6.3 Python语言的特色11

1.6.4 Python语言的缺点11

1.7 NumPy函数库基础12

1.8本章小结13

第2章 k-近邻算法15

2.1 k-近邻算法概述15

2.1.1准备：使用Python导入数据17

2.1.2从文本文件中解析数据19

2.1.3如何测试分类器20

2.2示例：使用k-近邻算法改进约会网站的配对效果20

2.2.1准备数据：从文本文件中解析数据21

2.2.2分析数据：使用Matplotlib创建散点图23

2.2.3准备数据：归一化数值25

2.2.4测试算法：作为完整程序验证分类器26

2.2.5使用算法：构建完整可用系统27

2.3示例：手写识别系统28

2.3.1准备数据：将图像转换为测试向量29

2.3.2测试算法：使用k-近邻算法识别手写数字30

2.4本章小结31

第3章决策树32

3.1决策树的构造33

3.1.1信息增益35

3.1.2划分数据集37

3.1.3递归构建决策树39

3.2在Python中使用Matplotlib注解绘制树形图42

3.2.1 Matplotlib注解43

3.2.2构造注解树44

3.3测试和存储分类器48

3.3.1测试算法：使用决策树执行分类49

3.3.2使用算法：决策树的存储50

3.4示例：使用决策树预测隐形眼镜类型50

3.5本章小结52

第4章基于概率论的分类方法：朴素贝叶斯53

4.1基于贝叶斯决策理论的分类方法53

4.2条件概率55

4.3使用条件概率来分类56

4.4使用朴素贝叶斯进行文档分类57

4.5使用Python进行文本分类58

4.5.1准备数据：从文本中构建词向量58

4.5.2训练算法：从词向量计算概率60

4.5.3测试算法：根据现实情况修改分类器62

4.5.4准备数据：文档词袋模型64

4.6示例：使用朴素贝叶斯过滤垃圾邮件64

4.6.1准备数据：切分文本65

4.6.2测试算法：使用朴素贝叶斯进行交叉验证66

4.7示例：使用朴素贝叶斯分类器从个人广告中获取区域倾向68

4.7.1收集数据：导入RSS源68

4.7.2分析数据：显示地域相关的用词71

4.8本章小结72

第5章 Logistic回归73

5.1基于Logistic回归和Sigmoid函数的分类74

5.2基于最优化方法的最佳回归系数确定75

5.2.1梯度上升法75

5.2.2训练算法：使用梯度上升找到最佳参数77

5.2.3分析数据：画出决策边界79

5.2.4训练算法：随机梯度上升80

5.3示例：从疝气病症预测病马的死亡率85

5.3.1准备数据：处理数据中的缺失值85

5.3.2测试算法：用Logistic回归进行分类86

5.4本章小结88

第6章支持向量机89

6.1基于最大间隔分隔数据89

6.2寻找最大间隔91

6.2.1分类器求解的优化问题92

6.2.2 SVM应用的一般框架93

6.3 SMO高效优化算法94

6.3.1 Platt的SMO算法94

6.3.2应用简化版SMO算法处理小规模数据集94

6.4利用完整Platt SMO算法加速优化99

6.5在复杂数据上应用核函数105

6.5.1利用核函数将数据映射到高维空间106

6.5.2径向基核函数106

6.5.3在测试中使用核函数108

6.6示例：手写识别问题回顾111

6.7本章小结113

第7章利用AdaBoost元算法提高分类性能115

7.1基于数据集多重抽样的分类器115

7.1.1 bagging：基于数据随机重抽样的分类器构建方法116

7.1.2 boosting116

7.2训练算法：基于错误提升分类器的性能117

7.3基于单层决策树构建弱分类器118

7.4完整AdaBoost算法的实现122

7.5测试算法：基于AdaBoost的分类124

7.6示例：在一个难数据集上应用AdaBoost125

7.7非均衡分类问题127

7.7.1其他分类性能度量指标：正确率、召回率及ROC曲线128

7.7.2基于代价函数的分类器决策控制131

7.7.3处理非均衡问题的数据抽样方法132

7.8本章小结132

第二部分利用回归预测数值型数据136

第8章预测数值型数据：回归136

8.1用线性回归找到最佳拟合直线136

8.2局部加权线性回归141

8.3示例：预测鲍鱼的年龄145

8.4缩减系数来“理解”数据146

8.4.1岭回归146

8.4.2 lasso148

8.4.3前向逐步回归149

8.5权衡偏差与方差152

8.6示例：预测乐高玩具套装的价格153

8.6.1收集数据：使用Google购物的API153

8.6.2训练算法：建立模型155

8.7本章小结158

第9章树回归159

9.1复杂数据的局部性建模159

9.2连续和离散型特征的树的构建160

9.3将CART算法用于回归163

9.3.1构建树163

9.3.2运行代码165

9.4树剪枝167

9.4.1预剪枝167

9.4.2后剪枝168

9.5模型树170

9.6示例：树回归与标准回归的比较173

9.7使用Python的Tkinter库创建GUI176

9.7.1用Tkinter创建GUI177

9.7.2集成Matplotlib和Tkinter179

9.8本章小结182

第三部分无监督学习184

第10章利用K-均值聚类算法对未标注数据分组184

10.1 K-均值聚类算法185

10.2使用后处理来提高聚类性能189

10.3二分K-均值算法190

10.4示例：对地图上的点进行聚类193

10.4.1 Yahoo！ PIaceFinder API194

10.4.2对地理坐标进行聚类196

10.5本章小结198

第11章使用Apriori算法进行关联分析200

11.1关联分析201

11.2 Apriori原理202

11.3使用Apriori算法来发现频繁集204

11.3.1生成候选项集204

11.3.2组织完整的Apriori算法207

11.4从频繁项集中挖掘关联规则209

11.5示例：发现国会投票中的模式212

11.5.1收集数据：构建美国国会投票记录的事务数据集213

11.5.2测试算法：基于美国国会投票记录挖掘关联规则219

11.6示例：发现毒蘑菇的相似特征220

11.7本章小结221

第12章使用FP-growth算法来高效发现频繁项集223

12.1 FP树：用于编码数据集的有效方式224

12.2构建FP树225

12.2.1创建FP树的数据结构226

12.2.2构建FP树227

12.3从一棵FP树中挖掘频繁项集231

12.3.1抽取条件模式基231

12.3.2创建条件FP树232

12.4示例：在Twitter源中发现一些共现词235

12.5示例：从新闻网站点击流中挖掘238

12.6本章小结239

第四部分其他工具242

第13章利用PCA来简化数据242

13.1降维技术242

13.2 PCA243

13.2.1移动坐标轴243

13.2.2在NumPy中实现PCA246

13.3示例：利用PCA对半导体制造数据降维248

13.4本章小结251

第14章利用SVD简化数据252

14.1 SVD的应用252

14.1.1隐性语义索引253

14.1.2推荐系统253

14.2矩阵分解254

14.3利用Python实现SVD255

14.4基于协同过滤的推荐引擎257

14.4.1相似度计算257

14.4.2基于物品的相似度还是基于用户的相似度？260

14.4.3推荐引擎的评价260

14.5示例：餐馆菜肴推荐引擎260

14.5.1推荐未尝过的菜肴261

14.5.2利用SVD提高推荐的效果263

14.5.3构建推荐引擎面临的挑战265

14.6基于SVD的图像压缩266

14.7本章小结268

第15章大数据与MapReduce270

15.1 MapReduce：分布式计算的框架271

15.2 Hadoop流273

15.2.1分布式计算均值和方差的mapper273

15.2.2分布式计算均值和方差的reducer274

15.3在Amazon网络服务上运行Hadoop程序275

15.3.1 AWS上的可用服务276

15.3.2开启Amazon网络服务之旅276

15.3.3在EMR上运行Hadoop作业278

15.4 MapReduce上的机器学习282

15.5在Python中使用mrjob来自动化MapReduce283

15.5.1 mrjob与EMR的无缝集成283

15.5.2 mrjob的一个MapReduce脚本剖析284

15.6示例：分布式SVM的Pegasos算法286

15.6.1 Pegasos算法287

15.6.2训练算法：用mtjob实现MapReduce版本的SVM288

15.7你真的需要MapReduce吗？292

15.8本章小结292

附录A Python入门294

附录B 线性代数303

附录C 概率论复习309

附录D 资源312

索引313