图书介绍

强化学习PDF|Epub|txt|kindle电子书版本网盘下载

强化学习
  • (荷)马可·威宁(Marco Wiering),马丁·范·奥特罗(Martijn van Otterlo) 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111600220
  • 出版时间:2018
  • 标注页数:464页
  • 文件大小:181MB
  • 文件页数:14450066页
  • 主题词:机器学习

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

强化学习PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 绪论2

第1章 强化学习和马尔可夫决策过程2

1.1 简介2

1.2 时序决策3

1.2.1 接近时序决策4

1.2.2 在线学习与离线学习4

1.2.3 贡献分配5

1.2.4 探索-运用的平衡5

1.2.5 反馈、目标和性能5

1.2.6 表达6

1.3 正式的框架6

1.3.1 马尔可夫决策过程7

1.3.2 策略9

1.3.3 最优准则和减量9

1.4 价值函数和贝尔曼方程10

1.5 求解马尔可夫决策过程12

1.6 动态规划:基于模型的解决方案13

1.6.1 基本的动态规划算法13

1.6.2 高效的动态规划算法17

1.7 强化学习:无模型的解决方案19

1.7.1 时序差分学习20

1.7.2 蒙特卡罗方法23

1.7.3 高效的探索和价值更新24

1.8 总结27

参考文献27

第二部分 高效的解决方案框架32

第2章 批处理强化学习32

2.1 简介32

2.2 批处理强化学习问题33

2.2.1 批处理学习问题33

2.2.2 增长批处理学习问题34

2.3 批处理强化学习算法的基础34

2.4 批处理强化学习算法37

2.4.1 基于核的近似动态规划37

2.4.2 拟合Q迭代39

2.4.3 基于最小二乘的策略迭代40

2.4.4 识别批处理算法41

2.5 批处理强化学习理论42

2.6 批处理强化学习的实现43

2.6.1 神经拟合Q迭代44

2.6.2 控制应用中的神经拟合Q迭代算法45

2.6.3 面向多学习器的批处理强化学习46

2.6.4 深度拟合Q迭代48

2.6.5 应用/发展趋势49

2.7 总结50

参考文献50

第3章 策略迭代的最小二乘法53

3.1 简介53

3.2 预备知识:经典策略迭代算法54

3.3 近似策略评估的最小二乘法55

3.3.1 主要原则和分类55

3.3.2 线性情况下和矩阵形式的方程57

3.3.3 无模型算法的实现60

3.3.4 参考文献62

3.4 策略迭代的在线最小二乘法63

3.5 例子:car-on-the-hill64

3.6 性能保障66

3.6.1 渐近收敛性和保证66

3.6.2 有限样本的保证68

3.7 延伸阅读73

参考文献74

第4章 学习和使用模型78

4.1 简介78

4.2 什么是模型79

4.3 规划80

4.4 联合模型和规划82

4.5 样本复杂度84

4.6 分解域86

4.7 探索88

4.8 连续域91

4.9 实证比较93

4.10 扩展95

4.11 总结96

参考文献97

第5章 强化学习中的迁移:框架和概观101

5.1 简介101

5.2 强化学习迁移的框架和分类102

5.2.1 迁移框架102

5.2.2 分类104

5.3 固定状态-动作空间中从源到目标迁移的方法108

5.3.1 问题形式化108

5.3.2 表示迁移109

5.3.3 参数迁移110

5.4 固定状态-动作空间中跨多任务迁移的方法111

5.4.1 问题形式化111

5.4.2 实例迁移111

5.4.3 表示迁移112

5.4.4 参数迁移113

5.5 不同状态-动作空间中从源到目标任务迁移的方法114

5.5.1 问题形式化114

5.5.2 实例迁移115

5.5.3 表示迁移115

5.5.4 参数迁移116

5.6 总结和开放性问题116

参考文献117

第6章 探索的样本复杂度边界122

6.1 简介122

6.2 预备知识123

6.3 形式化探索效率124

6.3.1 探索的样本复杂度和PAC-MDP124

6.3.2 遗憾最小化125

6.3.3 平均损失127

6.3.4 贝叶斯框架127

6.4 通用PAC-MDP定理128

6.5 基于模型的方法130

6.5.1 Rmax130

6.5.2 Rmax的泛化132

6.6 无模型方法138

6.7 总结141

参考文献141

第三部分 建设性的表征方向146

第7章 连续状态和动作空间中的强化学习146

7.1 简介146

7.1.1 连续域中的马尔可夫决策过程147

7.1.2 求解连续MDP的方法148

7.2 函数逼近149

7.2.1 线性函数逼近150

7.2.2 非线性函数逼近153

7.2.3 更新参数154

7.3 近似强化学习157

7.3.1 数值逼近157

7.3.2 策略逼近162

7.4 双极车杆实验168

7.5 总结171

参考文献171

第8章 综述:求解一阶逻辑马尔可夫决策过程179

8.1 关系世界中的顺序决策简介179

8.1.1 马尔可夫决策过程:代表性和可扩展性180

8.1.2 简短的历史和与其他领域的联系181

8.2 用面向对象和关系扩展马尔可夫决策过程183

8.2.1 关系表示与逻辑归纳183

8.2.2 关系型马尔可夫决策过程184

8.2.3 抽象问题和求解184

8.3 基于模型的解决方案186

8.3.1 贝尔曼备份的结构186

8.3.2 确切的基于模型的算法187

8.3.3 基于近似模型的算法190

8.4 无模型的解决方案192

8.4.1 固定泛化的价值函数学习192

8.4.2 带自适应泛化的价值函数193

8.4.3 基于策略的求解技巧196

8.5 模型、层级、偏置198

8.6 现在的发展201

8.7 总结和展望203

参考文献204

第9章 层次式技术213

9.1 简介213

9.2 背景215

9.2.1 抽象动作215

9.2.2 半马尔可夫决策问题216

9.2.3 结构217

9.2.4 状态抽象218

9.2.5 价值函数分解219

9.2.6 优化220

9.3 层次式强化学习技术220

9.3.1 选项221

9.3.2 HAMQ学习222

9.3.3 MAXQ223

9.4 学习结构226

9.5 相关工作和当前研究228

9.6 总结230

参考文献230

第10章 针对强化学习的演化计算235

10.1 简介235

10.2 神经演化237

10.3 TWEANN239

10.3.1 挑战239

10.3.2 NEAT240

10.4 混合方法241

10.4.1 演化函数近似242

10.4.2 XCS243

10.5 协同演化245

10.5.1 合作式协同演化245

10.5.2 竞争式协同演化246

10.6 生成和发展系统247

10.7 在线方法249

10.7.1 基于模型的技术249

10.7.2 在线演化计算250

10.8 总结251

参考文献251

第四部分 概率模型260

第11章 贝叶斯强化学习260

11.1 简介260

11.2 无模型贝叶斯强化学习261

11.2.1 基于价值函数的算法261

11.2.2 策略梯度算法264

11.2.3 演员-评论家算法266

11.3 基于模型的贝叶斯强化学习268

11.3.1 由POMDP表述的贝叶斯强化学习268

11.3.2 通过动态规划的贝叶斯强化学习269

11.3.3 近似在线算法271

11.3.4 贝叶斯多任务强化学习272

11.3.5 集成先验知识273

11.4 有限样本分析和复杂度问题274

11.5 总结和讨论275

参考文献275

第12章 部分可观察的马尔可夫决策过程279

12.1 简介279

12.2 部分可观察环境中的决策280

12.2.1 POMDP模型280

12.2.2 连续和结构化的表达281

12.2.3 优化决策记忆282

12.2.4 策略和价值函数284

12.3 基于模型的技术285

12.3.1 基于MDP的启发式解决方案285

12.3.2 POMDP的值迭代286

12.3.3 确切的值迭代288

12.3.4 基于点的值迭代方法290

12.3.5 其他近似求解方法291

12.4 无先验模型的决策292

12.4.1 无记忆技术292

12.4.2 学习内部记忆292

12.5 近期研究趋势294

参考文献295

第13章 预测性定义状态表示300

13.1 简介300

13.1.1 状态是什么301

13.1.2 哪一个状态表示301

13.1.3 为什么使用预测性定义模型302

13.2 PSR303

13.2.1 历史及测试303

13.2.2 测试的预测304

13.2.3 系统动态向量304

13.2.4 系统动态矩阵305

13.2.5 充分的数据集305

13.2.6 状态306

13.2.7 更新状态306

13.2.8 线性PSR307

13.2.9 线性PSR与POMDP的关联307

13.2.10 线性PSR的理论结果308

13.3 PSR模型学习308

13.3.1 发现问题308

13.3.2 学习问题309

13.3.3 估计系统动态矩阵309

13.4 规划与PSR309

13.5 PSR的扩展310

13.6 其他具有预测性定义状态的模型311

13.6.1 可观测算子模型311

13.6.2 预测线性高斯模型312

13.6.3 时序差分网络312

13.6.4 分集自动机312

13.6.5 指数族PSR313

13.6.6 转换PSR313

13.7 总结313

参考文献314

第14章 博弈论和多学习器强化学习317

14.1 简介317

14.2 重复博弈319

14.2.1 博弈论319

14.2.2 重复博弈中的强化学习322

14.3 顺序博弈325

14.3.1 马尔可夫博弈326

14.3.2 马尔可夫博弈中的强化学习327

14.4 在多学习器系统中的稀疏交互330

14.4.1 多等级学习330

14.4.2 协调学习与稀疏交互331

14.5 延伸阅读334

参考文献334

第15章 去中心化的部分可观察马尔可夫决策过程338

15.1 简介338

15.2 Dec-POMDP框架339

15.3 历史状态与策略340

15.3.1 历史状态341

15.3.2 策略341

15.3.3 策略的结构342

15.3.4 联合策略的质量343

15.4 有限域的Dec-POMDP的解决方案344

15.4.1 穷举搜索和Dec-POMDP复杂性344

15.4.2 交替最大化344

15.4.3 Dec-POMDP的最优价值函数345

15.4.4 前推法:启发式搜索348

15.4.5 后推法:动态规划350

15.4.6 其他有限域的方法353

15.5 延伸阅读353

15.5.1 一般化和特殊问题353

15.5.2 有限Dec-POMDP354

15.5.3 强化学习355

15.5.4 通信356

参考文献356

第五部分 其他应用领域364

第16章 强化学习与心理和神经科学之间的关系364

16.1 简介364

16.2 经典(巴甫洛夫)条件反射365

16.2.1 行为365

16.2.2 理论366

16.2.3 小结和其他注意事项367

16.3 操作性(工具性)条件反射368

16.3.1 动作368

16.3.2 理论369

16.3.3 基于模型的控制与无模型的控制370

16.3.4 小结和其他注意事项371

16.4 多巴胺371

16.4.1 多巴胺作为奖励预测误差372

16.4.2 多巴胺的强化信号的作用372

16.4.3 小结和其他注意事项373

16.5 基底神经节373

16.5.1 基底神经节概述374

16.5.2 纹状体的神经活动374

16.5.3 皮质基神经节丘脑循环375

16.5.4 小结和其他注意事项377

16.6 总结378

参考文献378

第17章 游戏领域的强化学习387

17.1 简介387

17.1.1 目标和结构387

17.1.2 范围388

17.2 游戏展示厅388

17.2.1 西洋双陆棋389

17.2.2 国际象棋391

17.2.3 围棋394

17.2.4 俄罗斯方块398

17.2.5 即时战略游戏400

17.3 强化学习应用到游戏的挑战402

17.3.1 表示的设计402

17.3.2 探索404

17.3.3 训练数据的来源405

17.3.4 处理缺失的信息406

17.3.5 对手建模407

17.4 在游戏中使用强化学习407

17.4.1 最具娱乐性的对手407

17.4.2 开发期间的学习408

17.5 总结409

参考文献410

第18章 机器人领域的强化学习综述415

18.1 简介415

18.2 机器人强化学习中的挑战416

18.2.1 维度灾难417

18.2.2 真实场景样本灾难418

18.2.3 真实场景交互灾难418

18.2.4 模型错误灾难418

18.2.5 目标规范灾难419

18.3 机器人强化学习基础419

18.3.1 价值函数方法420

18.3.2 策略搜索421

18.4 表示法带来的可行性422

18.4.1 智能状态-动作离散化423

18.4.2 函数近似423

18.4.3 预构建策略424

18.5 先验知识带来的可行性425

18.5.1 示范中的先验知识425

18.5.2 任务结构中的先验知识426

18.5.3 先验知识指导探索427

18.6 仿真模拟带来的可行性427

18.6.1 模型的作用427

18.6.2 智力预演428

18.6.3 从仿真直接迁移到真实机器人429

18.7 一个学习样例:杯中球任务429

18.7.1 实验设置:任务和奖励429

18.7.2 适当的策略表示430

18.7.3 生成教师的示范430

18.7.4 使用策略搜索进行强化学习430

18.7.5 机器人强化学习中使用仿真模拟431

18.7.6 价值函数方法的替代方案431

18.8 总结432

参考文献432

第六部分 结束语440

第19章 总结、未来方向和展望440

19.1 回顾440

19.1.1 本书覆盖内容440

19.1.2 哪些主题没有被包含441

19.2 展望未来445

19.2.1 目前未知的内容445

19.2.2 看起来不可能的强化学习应用446

19.2.3 有趣的方向447

19.2.4 专家对未来发展的看法448

参考文献449

缩写词453

索引455

热门推荐