电子工业出版社有限公司店铺主页二维码
电子工业出版社有限公司
电子工业出版社有限公司有赞官方供货商,为客户提供一流的知识产品及服务。
微信扫描二维码,访问我们的微信店铺

强化学习(第2版)

132.70
运费: 免运费
强化学习(第2版) 商品图0
强化学习(第2版) 商品图1
强化学习(第2版) 商品缩略图0 强化学习(第2版) 商品缩略图1

商品详情

书名:强化学习(第2版)
定价:168.0
ISBN:9787121295164
作者:俞凯等
版次:2019
出版时间:2019-09

内容提要:

内容提要

《强化学习(第2版)》作为强化思想的深度解剖之作,被业内公认为是一本强化基础理论的经典著作。它从强化的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化的基本概念和方法,并以大量的实例帮助读者理解强化的问题建模过程以及核心的算法细节。

《强化学习(第2版)》适合所有对强化感兴趣的读者阅读、收藏。




作者简介:

编辑推荐

《强化学习(第2版)》被业界公认为任何对人工智能领域感兴趣的人员的必读书。

《强化学习(第2版)》是被称为“强化学习”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来,一直是强化学习领域的经典导论性教材,培育了好几代强化学习领域的研究人员。

在第2版中,随着强化学习来的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、平均收益*大化……涵盖了当今*关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。




目录:

目录

第1章 导论    1 

1.1 强化学习    1

1.2 示例     4 

1.3 强化学习要素     5 

1.4 局限性与适用范围    7 

1.5 扩展实例:井字棋      8 

1.6 本章小结      12 

1.7 强化学习的早期历史      13


第I部分 表格型求解方法      23 


第2章 多臂赌博机      25

2.1 一个 k 臂赌博机问题      25

2.2 动作-价值方法      27 

2.3 10 臂测试平台      28 

2.4 增量式实现      30 

2.5 跟踪一个非平稳问题      32 

2.6 乐观初始值      34 

2.7 基于置信度上界的动作选择       35 

2.8 梯度赌博机算法      37 

2.9 关联搜索 (上下文相关的赌博机)        40 

2.10 本章小结    41


第3章 有限马尔可夫决策过程 45

3.1 “智能体-环境”交互接口     45 

3.2 目标和收益           51 

3.3 回报和分幕      52 

3.4 分幕式和持续性任务的统一表示法   54 

3.5 策略和价值函数      55 

3.6 *优策略和*优价值函数    60 

3.7 *优性和近似算法             65 

3.8 本章小结    66


第4章 动态规划    71 

4.1 策略评估 (预测)     72 

4.2 策略改进   75 

4.3 策略迭代   78 

4.4 价值迭代   80 

4.5 异步动态规划   83 

4.6 广义策略迭代  84 

4.7 动态规划的效率    85 

4.8 本章小结   86


第5章 蒙特卡洛方法   89 

5.1 蒙特卡洛预测    90 

5.2 动作价值的蒙特卡洛估计        94 

5.3 蒙特卡洛控制      95 

5.4 没有试探性出发假设的蒙特卡洛控制        98 

5.5 基于重要度采样的离轨策略        101 

5.6 增量式实现   107 

5.7 离轨策略蒙特卡洛控制          108 

5.8 ? 折扣敏感的重要度采样     110

5.9 ? 每次决策型重要度采样     112

5.10 本章小结     113


第 6 章 时序差分学习     117 

6.1 时序差分预测  117 

6.2 时序差分预测方法的优势     122 

6.3 TD(0) 的*优性            124 

6.4 Sarsa:同轨策略下的时序差分控制      127 

6.5 Q 学习:离轨策略下的时序差分控制     129 

6.6 期望 Sarsa    131 

6.7 *大化偏差与双学习       133 

6.8 游戏、后位状态和其他特殊例子   135 

6.9 本章小结   136


第7章 n 步自举法    139 

7.1 n 步时序差分预测         140 

7.2 n 步 Sarsa     144 

7.3 n 步离轨策略学习        146 

7.4 ? 带控制变量的每次决策型方法   148 

7.5 不需要使用重要度采样的离轨策略学习方法:n 步树回溯算法   150 

7.6 ? 一个统一的算法:n 步 Q(σ)    153 

7.7 本章小结   155


第8章 基于表格型方法的规划和学习     157 

8.1 模型和规划    157 

8.2 Dyna:集成在一起的规划、动作和学习     159 

8.3 当模型错误的时候      164 

8.4 优先遍历     166 

8.5 期望更新与采样更新的对比    170 

8.6 轨迹采样   173

8.7 实时动态规划   176 

8.8 决策时规划   179 

8.9 启发式搜索     180 

8.10 预演算法    182 

8.11 蒙特卡洛树搜索        184 

8.12 本章小结     187 

8.13 第I部分总结        188


第II部分 表格型近似求解方法         193


第9章 基于函数逼近的同轨策略预测         195

9.1 价值函数逼近     195 

9.2 预测目标 (VE )        196 

9.3 随机梯度和半梯度方法     198 

9.4 线性方法         202 

9.5 线性方法的特征构造         207

9.5.1 多项式基      208 

9.5.2 傅立叶基       209 

9.5.3 粗编码         212 

9.5.4 瓦片编码   214 

9.5.5 径向基函数         218

9.6 手动选择步长参数         219 

9.7 非线性函数逼近:人工神经网络      220 

9.8 *小二乘时序差分        225 

9.9 基于记忆的函数逼近      227 

9.10 基于核函数的函数逼近      229 

9.11 深入了解同轨策略学习:“兴趣”与“强调”      230 

9.12 本章小结       232


第10章 基于函数逼近的同轨策略控制       239 

10.1 分幕式半梯度控制    239 

10.2 半梯度 n 步 Sarsa         242 

10.3 平均收益:持续性任务中的新的问题设定    245 

10.4 弃用折扣         249 

10.5 差分半梯度 n 步 Sarsa     251 

10.6 本章小结        252


第11 章 ? 基于函数逼近的离轨策略方法    253 

11.1 半梯度方法    254 

11.2 离轨策略发散的例子    256 

11.3 致命三要素    260 

11.4 线性价值函数的几何性质          262

11.5 对贝尔曼误差做梯度下降         266 

11.6 贝尔曼误差是不可学习的           270 

11.7 梯度 TD 方法          274 

11.8 强调 TD 方法   278 

11.9 减小方差          279 

11.10 本章小结           280


第12章 资格迹         283 

12.1 λ-回报         284 

12.2 TD(λ)     287 

12.3 n-步截断 λ- 回报方法   291 

12.4 重做更新:在线 λ-回报算法       292 

12.5 真实的在线 TD(λ)       294 

12.6 ? 蒙特卡洛学习中的荷兰迹      296 

12.7 Sarsa(λ)      298 

12.8 变量 λ 和 γ       303

12.9 带有控制变量的离轨策略资格迹        304 

12.10 从 Watkins 的 Q(λ) 到树回溯 TB(λ)       308 

12.11 采用资格迹保障离轨策略方法的稳定性     310 

12.12 实现中的问题               312 

12.13 本章小结                312


第13章 策略梯度方法    317 

13.1 策略近似及其优势       318 

13.2 策略梯度定理   320 

13.3 REINFORCE:蒙特卡洛策略梯度       322 

13.4 带有基线的 REINFORCE       325 

13.5 “行动器-评判器”方法        327 

13.6 持续性问题的策略梯度       329 

13.7 针对连续动作的策略参数化方法     332 

13.8 本章小结         333


第III部分 表格型深入研究       337 


第14章 心理学          339

14.1 预测与控制             340 

14.2 经典条件反射          341

14.2.1 阻塞与高级条件反射       342 

14.2.2 Rescorla-Wagner 模型      344 

14.2.3 TD 模型     347 

14.2.4 TD 模型模拟          348

14.3 工具性条件反射      355 

14.4 延迟强化    359 

14.5 认知图      361 

14.6 习惯行为与目标导向行为       362

14.7 本章小结       366 


第15章 神经科学      373 

15.1 神经科学基础        374 

15.2 收益信号、强化信号、价值和预测误差     375 

15.3 收益预测误差假说         377 

15.4 多巴胺       379 

15.5 收益预测误差假说的实验支持      382 

15.6 TD 误差/多巴胺对应        385 

15.7 神经“行动器-评判器”        390 

15.8 行动器与评判器学习规则       393 

15.9 享乐主义神经元         397 

15.10 集体强化学习        399 

15.11 大脑中的基于模型的算法     402 

15.12 成瘾        403 

15.13 本章小结      404


第 16 章 应用及案例分析      413 

16.1 TD-Gammon      413 

16.2 Samuel 的跳棋程序        418 

16.3 Watson 的每日双倍投注           421 

16.4 优化内存控制         424 

16.5 人类级别的视频游戏           428 

16.6 主宰围棋游戏          433

16.6.1 AlphaGo          436 

16.6.2 AlphaGo Zero         439

16.7 个性化网络服务    442 

16.8 热气流滑翔       446


第17章 前沿技术               451 

17.1 广义价值函数和辅助任务     451 

17.2 基于选项理论的时序摘要             453 

17.3 观测量和状态         456 

17.4 设计收益信号           460 

17.5 遗留问题     464 

17.6 人工智能的未来       467


参考文献      473



电子工业出版社有限公司店铺主页二维码
电子工业出版社有限公司
电子工业出版社有限公司有赞官方供货商,为客户提供一流的知识产品及服务。
扫描二维码,访问我们的微信店铺

强化学习(第2版)

手机启动微信
扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏

微信支付

支付宝

扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏