深度强化学习实战 强化学习深度强化学习人工智能机器学习PyTorch迁移学习元学习OpenAIGymchatgpt
¥89.90
运费: | ¥ 0.00-20.00 |
商品详情
书名:深度强化学习实战
定价:119.8
ISBN:9787115576361
作者:亚历山大·扎伊,布兰登·布朗
版次:第1版
出版时间:2023-04
内容提要:
本书先介绍深度强化学习的基础知识及相关算法,然后给出多个实战项目,以期让读者可以根据环境的直接反馈对智能体加以调整和改进,提升运用深度强化学习技术解决实际问题的能力。 本书涵盖深度Q网络、策略梯度法、演员-评论家算法、进化算法、Dist-DQN、多智能体强化学习、可解释性强化学习等内容。本书给出的实战项目紧跟深度强化学习技术的发展趋势,且所有项目示例以Jupter Notebook样式给出,便于读者修改代码、观察结果并及时获取经验,能够带给读者交互式的学习体验。 本书适合有一定深度学习和机器学习基础并对强化学习感兴趣的读者阅读。
作者简介:
Alexander Zai曾担任Codesmith(一个沉浸式的编码训练营)*技术官和技术顾问、Uber 软件工程师、Bonjo和AmazonAI机器学习工程师,他也是开源深度学习框架Apache MXNet的贡献者。此外,他还是两家公司的联合创立人,其中一家曾是Y-combinator的参与者。 Brandon Brown从很小的时候*开始编程,大学期间做过兼职软件工程师,但*终选择投身医疗行业(在此期间,他在医疗保健科技领域担任软件工程师)。受深度强化学习的启发,他近期专注于计算精神病学的研究。
目录:
第 一部分 基础篇
第 1章 什么是强化学习 3
1.1 深度强化学习中的“深度” 4
1.2 强化学习 5
1.3 动态规划与蒙特卡洛 7
1.4 强化学习框架 9
1.5 强化学习可以做什么 12
1.6 为什么是深度强化学习 14
1.7 教学工具:线图 15
1.8 后续内容概述 17
小结 18
第 2章 强化学习问题建模: 马尔可夫决策过程 19
2.1 线图与本书的教学方法 19
2.2 解决多臂老虎机问题 22
2.2.1 探索与利用 23
2.2.2 贪婪策略 24
2.2.3 Softmax选择策略 29
2.3 应用老虎机算法优化广告投放 31
2.3.1 上下文老虎机 31
2.3.2 状态、动作和奖励 32
2.4 利用PyTorch构建网络 33
2.4.1 自动微分 33
2.4.2 构建模型 34
2.5 解决上下文老虎机问题 35
2.6 马尔可夫性质 39
2.7 预测未来奖励:价值和策略函数 41
2.7.1 策略函数 42
2.7.2 *策略 43
2.7.3 价值函数 43
小结 44
第3章 预测*状态和动作: 深度Q网络 46
3.1 Q函数 46
3.2 Q-learning导航 47
3.2.1 Q-learning是什么 48
3.2.2 应用于Gridworld游戏 49
3.2.3 *参数 50
3.2.4 贴现因子 50
3.2.5 构建网络 52
3.2.6 介绍Gridworld游戏引擎 53
3.2.7 构建Q函数的神经网络 55
3.3 防止灾难性遗忘:经验回放 64
3.3.1 灾难性遗忘 64
3.3.2 经验回放 65
3.4 利用目标网络提高稳定性 69
学习的不稳定性 70
3.5 回顾 74
小结 76
第4章 学习选择*策略:策略梯度法 77
4.1 使用神经网络的策略函数 77
4.1.1 神经网络作为策略函数 78
4.1.2 随机策略梯度 78
4.1.3 探索 80
4.2 强化良好动作:策略梯度算法 81
4.2.1 定义目标 81
4.2.2 强化动作 82
4.2.3 对数概率 84
4.2.4 信用分配 84
4.3 与OpenAI Gym配合 85
4.3.1 CartPole 87
4.3.2 OpenAI Gym API 87
4.4 REINFORCE算法 88
4.4.1 创建策略网络 88
4.4.2 使智能体与环境交互 89
4.4.3 训练模型 89
4.4.4 完整训练循环 91
4.4.5 所得到的结论 93
小结 93
第5章 利用演员-评论家算法 解决更复杂的问题 94
5.1 重构价值-策略函数 95
5.2 分布式训练 99
5.3 演员-评论家优势算法 104
5.4 N-step演员-评论家算法 112
小结 116
*部分 进阶篇
第6章 可替代的优化方法: 进化算法 119
6.1 另一种强化学习方法 119
6.2 具有进化策略的强化学习 121
6.2.1 进化理论 121
6.2.2 进化实践 123
6.3 CartPole的遗传算法 128
6.4 进化算法的优缺点 134
6.4.1 进化算法探索更多 134
6.4.2 进化算法令人难以置信的样本密集性 134
6.4.3 模拟器 135
6.5 进化算法作为一种可扩展的替代方案 135
6.5.1 扩展的进化算法 135
6.5.2 并行与串行处理 137
6.5.3 扩展效率 138
6.5.4 节点间通信 138
6.5.5 线性扩展 140
6.5.6 扩展基于梯度的算法 140
小结 141
第7章 Dist-DQN:获取完整故事 142
7.1 Q-learning存在的问题 143
7.2 再论概率统计 147
7.2.1 先验和后验 148
7.2.2 期望和方差 149
7.3 贝尔曼方程 153
分布式贝尔曼方程 153
7.4 分布式Q-learning 154
7.4.1 使用Python表示概率分布 154
7.4.2 实现Dist-DQN 162
7.5 比较概率分布 164
7.6 模拟数据上的Dist-DQN 167
7.7 使用分布式Q-learning玩Freeway 172
小结 177
第8章 好奇心驱动的 探索 178
8.1 利用预测编码处理稀疏奖励 179
8.2 反向动态预测 182
8.3 搭建《*马里奥兄弟》环境 184
8.4 预处理和Q网络 186
8.5 创建Q网络和策略函数 188
8.6 内在好奇心模块 191
8.7 可替代的内在奖励机制 203
小结 205
第9章 多智能体强化 学习 206
9.1 从单个到多个智能体 206
9.2 邻域Q-learning 210
9.3 一维伊辛模型 213
9.4 平均场Q-learning和二维伊辛模型 221
9.5 混合合作竞技游戏 230
小结 239
第 10章 强化学习可解释性: 注意力和关系 模型 241
10.1 带注意力和关系偏差的 机器学习可解释性 242
不变性和等变性 243
10.2 利用注意力进行关系 推理 244
10.2.1 注意力模型 245
10.2.2 关系推理 246
10.2.3 自注意力模型 251
10.3 对MNIST实现 自注意力 253
10.3.1 转换的MNIST 254
10.3.2 关系模块 255
10.3.3 张量缩并和爱因斯坦 标记法 258
10.3.4 训练关系模块 261
10.4 多头注意力和 关系DQN 264
10.5 双Q-learning 270
10.6 训练和注意力 可视化 271
10.6.1 *熵学习 275
10.6.2 课程学习 275
10.6.3 可视化注意力权重 276
小结 278
第 11章 总结:回顾和 路线图 280
11.1 我们学到了什么 280
11.2 深度强化学习中的 未知课题 282
11.2.1 优先经验回放 282
11.2.2 近端策略优化 282
11.2.3 分层强化学习和 options框架 283
11.2.4 基于模型的规划 283
11.2.5 蒙特卡洛树搜索 284
全书结语 284
附录A 数学、深度学习和
PyTorch 285
A.1 线性代数 285
A.2 微积分 287
A.3 深度学习 290
A.4 PyTorch 291
参考资料 295
定价:119.8
ISBN:9787115576361
作者:亚历山大·扎伊,布兰登·布朗
版次:第1版
出版时间:2023-04
内容提要:
本书先介绍深度强化学习的基础知识及相关算法,然后给出多个实战项目,以期让读者可以根据环境的直接反馈对智能体加以调整和改进,提升运用深度强化学习技术解决实际问题的能力。 本书涵盖深度Q网络、策略梯度法、演员-评论家算法、进化算法、Dist-DQN、多智能体强化学习、可解释性强化学习等内容。本书给出的实战项目紧跟深度强化学习技术的发展趋势,且所有项目示例以Jupter Notebook样式给出,便于读者修改代码、观察结果并及时获取经验,能够带给读者交互式的学习体验。 本书适合有一定深度学习和机器学习基础并对强化学习感兴趣的读者阅读。
作者简介:
Alexander Zai曾担任Codesmith(一个沉浸式的编码训练营)*技术官和技术顾问、Uber 软件工程师、Bonjo和AmazonAI机器学习工程师,他也是开源深度学习框架Apache MXNet的贡献者。此外,他还是两家公司的联合创立人,其中一家曾是Y-combinator的参与者。 Brandon Brown从很小的时候*开始编程,大学期间做过兼职软件工程师,但*终选择投身医疗行业(在此期间,他在医疗保健科技领域担任软件工程师)。受深度强化学习的启发,他近期专注于计算精神病学的研究。
目录:
第 一部分 基础篇
第 1章 什么是强化学习 3
1.1 深度强化学习中的“深度” 4
1.2 强化学习 5
1.3 动态规划与蒙特卡洛 7
1.4 强化学习框架 9
1.5 强化学习可以做什么 12
1.6 为什么是深度强化学习 14
1.7 教学工具:线图 15
1.8 后续内容概述 17
小结 18
第 2章 强化学习问题建模: 马尔可夫决策过程 19
2.1 线图与本书的教学方法 19
2.2 解决多臂老虎机问题 22
2.2.1 探索与利用 23
2.2.2 贪婪策略 24
2.2.3 Softmax选择策略 29
2.3 应用老虎机算法优化广告投放 31
2.3.1 上下文老虎机 31
2.3.2 状态、动作和奖励 32
2.4 利用PyTorch构建网络 33
2.4.1 自动微分 33
2.4.2 构建模型 34
2.5 解决上下文老虎机问题 35
2.6 马尔可夫性质 39
2.7 预测未来奖励:价值和策略函数 41
2.7.1 策略函数 42
2.7.2 *策略 43
2.7.3 价值函数 43
小结 44
第3章 预测*状态和动作: 深度Q网络 46
3.1 Q函数 46
3.2 Q-learning导航 47
3.2.1 Q-learning是什么 48
3.2.2 应用于Gridworld游戏 49
3.2.3 *参数 50
3.2.4 贴现因子 50
3.2.5 构建网络 52
3.2.6 介绍Gridworld游戏引擎 53
3.2.7 构建Q函数的神经网络 55
3.3 防止灾难性遗忘:经验回放 64
3.3.1 灾难性遗忘 64
3.3.2 经验回放 65
3.4 利用目标网络提高稳定性 69
学习的不稳定性 70
3.5 回顾 74
小结 76
第4章 学习选择*策略:策略梯度法 77
4.1 使用神经网络的策略函数 77
4.1.1 神经网络作为策略函数 78
4.1.2 随机策略梯度 78
4.1.3 探索 80
4.2 强化良好动作:策略梯度算法 81
4.2.1 定义目标 81
4.2.2 强化动作 82
4.2.3 对数概率 84
4.2.4 信用分配 84
4.3 与OpenAI Gym配合 85
4.3.1 CartPole 87
4.3.2 OpenAI Gym API 87
4.4 REINFORCE算法 88
4.4.1 创建策略网络 88
4.4.2 使智能体与环境交互 89
4.4.3 训练模型 89
4.4.4 完整训练循环 91
4.4.5 所得到的结论 93
小结 93
第5章 利用演员-评论家算法 解决更复杂的问题 94
5.1 重构价值-策略函数 95
5.2 分布式训练 99
5.3 演员-评论家优势算法 104
5.4 N-step演员-评论家算法 112
小结 116
*部分 进阶篇
第6章 可替代的优化方法: 进化算法 119
6.1 另一种强化学习方法 119
6.2 具有进化策略的强化学习 121
6.2.1 进化理论 121
6.2.2 进化实践 123
6.3 CartPole的遗传算法 128
6.4 进化算法的优缺点 134
6.4.1 进化算法探索更多 134
6.4.2 进化算法令人难以置信的样本密集性 134
6.4.3 模拟器 135
6.5 进化算法作为一种可扩展的替代方案 135
6.5.1 扩展的进化算法 135
6.5.2 并行与串行处理 137
6.5.3 扩展效率 138
6.5.4 节点间通信 138
6.5.5 线性扩展 140
6.5.6 扩展基于梯度的算法 140
小结 141
第7章 Dist-DQN:获取完整故事 142
7.1 Q-learning存在的问题 143
7.2 再论概率统计 147
7.2.1 先验和后验 148
7.2.2 期望和方差 149
7.3 贝尔曼方程 153
分布式贝尔曼方程 153
7.4 分布式Q-learning 154
7.4.1 使用Python表示概率分布 154
7.4.2 实现Dist-DQN 162
7.5 比较概率分布 164
7.6 模拟数据上的Dist-DQN 167
7.7 使用分布式Q-learning玩Freeway 172
小结 177
第8章 好奇心驱动的 探索 178
8.1 利用预测编码处理稀疏奖励 179
8.2 反向动态预测 182
8.3 搭建《*马里奥兄弟》环境 184
8.4 预处理和Q网络 186
8.5 创建Q网络和策略函数 188
8.6 内在好奇心模块 191
8.7 可替代的内在奖励机制 203
小结 205
第9章 多智能体强化 学习 206
9.1 从单个到多个智能体 206
9.2 邻域Q-learning 210
9.3 一维伊辛模型 213
9.4 平均场Q-learning和二维伊辛模型 221
9.5 混合合作竞技游戏 230
小结 239
第 10章 强化学习可解释性: 注意力和关系 模型 241
10.1 带注意力和关系偏差的 机器学习可解释性 242
不变性和等变性 243
10.2 利用注意力进行关系 推理 244
10.2.1 注意力模型 245
10.2.2 关系推理 246
10.2.3 自注意力模型 251
10.3 对MNIST实现 自注意力 253
10.3.1 转换的MNIST 254
10.3.2 关系模块 255
10.3.3 张量缩并和爱因斯坦 标记法 258
10.3.4 训练关系模块 261
10.4 多头注意力和 关系DQN 264
10.5 双Q-learning 270
10.6 训练和注意力 可视化 271
10.6.1 *熵学习 275
10.6.2 课程学习 275
10.6.3 可视化注意力权重 276
小结 278
第 11章 总结:回顾和 路线图 280
11.1 我们学到了什么 280
11.2 深度强化学习中的 未知课题 282
11.2.1 优先经验回放 282
11.2.2 近端策略优化 282
11.2.3 分层强化学习和 options框架 283
11.2.4 基于模型的规划 283
11.2.5 蒙特卡洛树搜索 284
全书结语 284
附录A 数学、深度学习和
PyTorch 285
A.1 线性代数 285
A.2 微积分 287
A.3 深度学习 290
A.4 PyTorch 291
参考资料 295
- 人民邮电出版社有限公司 (微信公众号认证)
- 人民邮电出版社微店,为您提供最全面,最专业的一站式购书服务
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...