金融强化学习

￥70.20

运费：	¥ 5.00-22.00
库存：	300 件

立即购买

支付：: 微信支付银行卡支付宝

商品详情

书名：金融强化学习
书号：978-7-5239-0539-5
定价：78元
作者：[德]伊夫·希尔皮斯科(Yves Hilpisch) 著吉政宇汪福君金政权译
出版时间：2026-04-24
出版社：中国电力出版社
页码： 240 字数(千字)：237
开本：特16开版次：1 印次：1

品牌介绍

中国电力出版社成立于 1951 年，作为中国成立最早的中央科技出版社之一，曾隶属于水利电力部、能源部、电力工业部、国家电力公司，现为国家电网公司所属的科技出版社，在电气技术专业出版领域享有极高的声誉。该社作为以图书出版为主体，音像、电子出版物、期刊、网络出版共同发展的大型出版企业，以强大的出版资源和高素质的专业队伍，致力于向读者提供包括电力工程、电气工程、建筑工程、电子技术、信息技术、外语、大中专教材、家教等学科门类齐全的权威出版物，也竭力为广大师生提供精品教材，是教育部和北京市教委规划教材的出版基地之一。

编辑推荐

专家推荐 “本书是任何渴望学习并将强化学习应用于金融领域的人不可或缺的资源。本书在理论与实践之间架起了一座专业的桥梁，提供了清晰的解释和详细的Python代码。对于希望在这一前沿领域加深和提高技术专业知识的学生、学者和从业人员来说，这是一本必读书。” ——Ivilina Popova，德州州立大学金融学教授编辑推荐强化学习在人工智能领域取得了多项突破。仅深度Q学习算法的使用，就帮助人们开发出了能以超人水平玩街机游戏和棋盘游戏的智能体。最近，RL、DQL和类似的方法在与金融研究相关的出版物中大受欢迎。本书是首批探索强化学习方法在金融领域应用的书籍之一。本书作者是Python Quants的创始人兼首席执行官，他将以简明扼要的方式为您提供所需的背景知识。ML从业人员、金融交易员、投资组合经理、策略师和分析师将重点关注这些算法以独立Python代码的形式实现，以及在重要金融问题中的应用。

作者介绍

Yves Hilpisch博士是Python Quants的创始人兼首席执行官，该组织专注于将开源技术用于金融数据科学、人工智能、资产管理、算法交易和计算金融。他还是金融Python证书项目的主任。

内容介绍

本书的主要内容有：强化学习。深度Q学习。Actor-critic算法。这些算法的Python实现。如何将算法应用于金融问题，如算法交易、动态对冲和动态资产配置。本书是这一主题的理想参考书。你只需阅读一遍，然后根据自己的需要或想法更改示例，并在使用RL处理金融问题时随时参考。
本书适用于本书对于致力于探索传统金融理论与算法替代方案的业界人士而言极具参考价值。

前言

前言告诉我也许会忘了，教给我可能会记住，让我实际参与才能掌握。—— Benjamin Franklin 强化学习（Reinforcement Learning，RL）在人工智能领域取得了多项突破。强化学习的关键算法之一是深度Q 学习（deep Q-learning，DQL），它可应用于大量动态决策问题。最常见的例子是街机游戏和棋盘游戏，如围棋，其中的RL 和DQL 算法在许多情况下都取得了超人的性能。尽管专家们曾认为此类成就在未来几十年内都不可能实现，但类似的突破却频频发生。金融是一门理论与实践紧密结合的学科。理论上的进步往往能迅速进入应用领域。金融学中的许多问题都是动态决策问题，例如资产在一段时间内的最优配置问题。因此，一方面，将DQL 应用于金融问题在理论上很有意义。另一方面，在金融市场中应用这些算法通常也非常简单直接（通常都要经过一些全面的测试）。近年来，与RL、DQL 和应用于金融相关的研究出版物出现了强劲增长。然而，除了纯粹的理论研究之外，几乎没有任何书籍可供读者了解这一领域。本书弥补了这一空白，它以简明扼要的方式提供了所需的背景知识，并以自带Python 代码的形式重点介绍了算法的实现以及对重要金融问题的应用。读者对象本书以Python 为载体，深入浅出地阐述了强化学习（RL）与深度Q 学习（DQL）在金融领域应用的核心原理与关键要素。本书不仅适用于高校学生与学者，对于致力于探索传统金融理论与算法替代方案的业界人士而言，同样极具参考价值。阅读建议：读者需具备Python 编程基础（含面向对象编程概念），并熟悉NumPy、pandas、matplotlib、scikit-learn 及TensorFlow 等主流数据科学与机器学习工具库。本书概述本书包括以下章节：第1 章第1 章聚焦于互动学习，主要包含四个核心案例：概率匹配、贝叶斯更新、强化学习（RL）与深度Q 学习（DQL）。第2 章第2 章阐述了动态规划（DP）的概念，并探讨了如何将DQL 作为近似求解DP 问题的方法。本章的核心在于通过采取一系列序贯行动并不断迭代优化策略，推导出能使给定目标函数最大化的最优策略。为了直观展示相关原理，本章以Gymnasium 库中的CartPole 游戏为例，构建并解析了一个DQL 智能体。第3 章第3 章搭建了首个金融环境，旨在使第2 章中的DQL 智能体能够在此环境中学习金融预测任务。尽管该环境在API 形式上复刻了CartPole 游戏，但它尚缺乏成功应用RL 所必需的一些关键特征。第4 章第4 章聚焦于基于蒙特卡罗模拟（MCS）的数据增强技术，深入探讨了在历史数据中引入噪声以及模拟随机过程的方法。第5 章第5 章介绍了生成对抗网络（GAN），旨在合成与历史时间序列数据具备相似统计特征的新数据，并详细演示了GAN 的训练过程。第6 章第6 章构建于第3 章的示例之上，将DQL 应用于算法交易场景，旨在解决预测价格下一步走势的问题。第7 章第7 章探讨了如何在布莱克- 斯科尔斯- 默顿（BSM，1973）模型框架下，学习欧式期权的最优动态对冲策略。换言之，本章的目标是实现期权的Delta 对冲或动态复制。第8 章第8 章将DQL 应用于资产管理领域，分析了三个典型案例：单一风险资产与无风险资产组合、双风险资产组合以及三风险资产组合。其核心任务是在可用资产间进行资金的动态分配，以实现利润目标或风险调整后收益（夏普比率）的最大化。第9 章第9 章聚焦于股票大额头寸的最优清算。其目标是在特定的风险规避条件下，将总执行成本降至最低。该案例与其他案例的显著区别在于，所有行动均通过一个额外的约束条件紧密耦合。此外，本章还介绍了一种新的RL 算法形式—— 演员– 评论家（Actor-Critic）算法。第10 章本书的最后一章为全书结语，并概述了对书中示例进行进一步改进与优化的方向。关于本书中的代码本书代码基于TensorFlow 2.13 编写。读者可直接访问The Python Quants’ Quant Platform（ Platform 还设有专属用户论坛，读者可在此就本书相关话题提问交流，并获取技术支持。排版约定本书采用以下排版约定。斜体（Italic）表示新术语、URL、电子邮件地址、文件名和文件扩展名。等宽字体（Constant width）用于程序列表以及段落中的程序元素，如变量或函数名、数据库、数据类型、环境变量、语句和关键字。粗体等宽字体（Constant width bold）显示应由用户按字面意思键入的命令或其他文本。斜体等宽字体（Constant width italic）显示应替换为用户提供的值或根据上下文确定的值的文本。使用代码示例补充材料（代码示例、练习等）可从https://rl4f.pqp.io 下载。如果您在使用代码示例时遇到技术问题或困难，请发送电子邮件至bookquestions@oreilly.com。本书旨在帮助您完成工作。一般来说，如果本书提供了示例代码，你可以在你的程序和文档中使用。除非你要复制代码的重要部分，否则你无需联系我们以获得许可。例如，在编写程序时使用本书中的几段代码就不需要许可。销售或分发O’Reilly 书中的示例需要获得许可。通过引用本书和示例代码来回答问题不需要许可。将本书中的大量示例代码纳入您的产品文档需要许可。我们感谢但一般不要求署名。署名通常包括书名、作者、出版商和ISBN。例如，本书的署名为“Reinforcement Learning for Finance by Yves Hilpisch (O’Reilly).Copyright 2025 Yves Hilpisch, 978-1-098-16914-5”。如果你认为对代码示例的使用超出了合理使用或上述许可范围，请随时通过permissions@oreilly.com 联系我们。 O’Reilly 在线学习平台（O’Reilly Online Learning）近40 年来，O’Reilly Media 致力于提供技术和商业培训、知识和卓越见解，来帮助众多公司取得成功。公司独有的专家和改革创新者网络通过O’Reilly 书籍、文章以及在线学习平台，分享他们的专业知识和实践经验。O’Reilly 在线学习平台按照您的需要提供实时培训课程、深入学习渠道、交互式编程环境以及来自O’Reilly 和其他200 多家出版商的大量书籍与视频资料。更多信息，请访问网站：/。联系我们任何有关本书的意见或疑问，请按照以下地址联系出版社。美国： O’Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 95472 中国：北京市西城区西直门南大街2 号成铭大厦C 座807 室（100035）奥莱利技术咨询（北京）有限公司我们为本书开设了一个网页，列出了勘误表、示例和任何其他信息。您可以访问https://oreil.ly/RL-for-finance。有关我们书籍和课程的新闻和信息，请访问https://oreilly.com。我们的LinkedIn：。我们的YouTube：。致谢本书的内容是通过一系列在线网络研讨会、CPF 计划内的课程以及欧洲和美国会议上的研讨会逐步形成的。我向所有参与者致以诚挚的谢意，他们的宝贵意见为本书的定稿提供了不可替代的支持。我要特别感谢Ivilina Popova 博士，感谢她对全书提出了宝贵的反馈意见。她的意见对完善本书内容起到了重要作用。我还要感谢整个O’Reilly 团队的专业精神和持续支持。他们建设性的意见和建议使整个书稿有了很大的改进。本书献给桑德拉和亨利。献给桑德拉，感谢她在这段旅程中始终不渝的爱和支持。献给亨利，希望这部作品能激励他学习数据科学和人工智能，激发他的学习热情。

目录
前言 1
第一部分基础知识
第1 章通过互动学习 11
11 贝叶斯学习 11
111 抛出一枚有偏硬币 12
112 掷一枚有偏骰子 16
113 贝叶斯更新 19
12 强化学习20
121 重大突破 21
122 主要组成部分 24
13 深度Q 学习 26
14 总结 27
15 参考文献27
第2 章深度Q 学习 31
21 决策问题32
22 动态规划33
23 Q 学习 36
24 以CartPole 为例 39
241 游戏运行环境 39
242 随机智能体 42
243 DQL 智能体 43
25 Q 学习与监督学习的比较48
26 总结 49
27 参考文献50
第3 章金融Q 学习 51
31 金融环境52
32 DQL 智能体 57
33 类比失败的地方 61
331 有限数据 61
332 没有影响 62
34 总结 63
35 参考文献64
第二部分数据增强
第4 章模拟数据 67
41 含噪时间序列数据 68
42 模拟时间序列数据 73
43 总结 81
44 参考文献81
45 DQLAgent Python 类 82
第5 章数据准备 87
51 简单案例88
52 金融案例95
53 KolmogorovSmirnov 检验 99
54 总结 101
55 参考文献102
第三部分金融应用
第6 章算法交易 105
61 重温预测游戏 106
62 交易环境109
63 交易智能体 116
64 总结 119
65 参考文献120
66 金融环境120
67 DQLAgent 类 122
68 模拟环境125
第7 章动态对冲 129
71 Delta 对冲 130
72 对冲环境140
73 对冲智能体 147
74 总结 153
75 参考文献154
76 BSM (1973) 公式 154
第8 章动态资产配置 157
81 双基金分离 158
82 双资产案例 176
83 三资产案例 185
84 等权重投资组合 192
85 总结 193
86 参考文献194
87 三资产代码 194
第9 章最优执行 201
91 模型 202
92 模型实现205
93 执行环境212
94 随机智能体 216
95 执行智能体 217
96 总结 224
97 参考文献225
第10 章结语 227