
《强化学习与随机优化》旨在介绍近年来作者在强化学习和随机优化交叉领域的研究成果,主要内容包括随机优化的定量稳定性分析,求解多阶段随机优化的新型情景树生成、约减方法,机会约束规划问题的模型转换、凸逼近与求解,非平稳强化学习的样本复杂度与泛化能力分析,随机优化和强化学习的统一模型及其基本性质,风险厌恶马氏决策过程与强化学习,分布鲁棒机会约束马氏决策过程及其转换与求解算法设计,连续状态集合、连续动作集合下无限智能体的连续时间平均场强化学习问题的性质与Actor_Critic型求解算法,以及强化学习在多期投资组合选择中的应用。《强化学习与随机优化》的目的是帮助读者掌握如何应用强化学习或随机优化来处理不确定环境下的复杂动态决策问题、如何开展强化学习和随机优化的交叉研究,以便他们能够尽快进入相应研究领域的前沿。

目录:《大数据与数据科学专著系列》序前言主要符号表第1章 随机优化与强化学习简介 11.1 随机优化 11.1.1 两阶段有补偿优化问题 11.1.2 两阶段混合整数随机优化 51.1.3 多阶段随机优化 71.1.4 机会约束规划 101.1.5 分布鲁棒随机优化 131.2 马氏决策过程 161.2.1 马氏决策过程的基本概念 171.2.2 决策规则与策略分类 181.2.3 性能准则与*优策略 191.2.4 *优性方程与算法 221.3 强化学习 281.3.1 强化学习的基本要素 281.3.2 TD类方法 321.3.3 策略梯度方法 361.3.4 Dyna_Q方法 381.4 小结 40第2章 随机优化的定量稳定性 412.1 预备知识 412.2 全随机两阶段随机优化问题的定量稳定性 462.2.1 模型基本性质 462.2.2 定量稳定性结果 502.3 风险厌恶全随机两阶段随机优化问题的定量稳定性 532.3.1 模型基本性质 542.3.2 定量稳定性结果 572.4 两阶段混合整数随机优化问题的定量稳定性 612.4.1 固定补偿情形 622.4.2 随机补偿情形 672.5 连续二次全随机补偿的两阶段随机优化问题的定量稳定性 692.5.1 模型基本性质 702.5.2 定量稳定性结果 722.6 混合整数二次补偿的两阶段随机优化问题的定量稳定性 792.6.1 模型基本性质 802.6.2 定量稳定性结果 822.7 多阶段随机优化问题的定量稳定性 862.7.1 多阶段随机线性优化模型的基本性质 862.7.2 多阶段随机线性优化问题的定量稳定性 882.7.3 风险厌恶多阶段随机优化问题的基本性质 912.7.4 风险厌恶多阶段随机优化问题的定量稳定性 932.8 小结 96第3章 求解多阶段随机优化的情景树方法 973.1 随机优化求解算法概述 973.1.1 分解类方法 973.1.2 抽样型方法 993.1.3 情景树方法 1013.2 情景树方法发展概述 1023.2.1 情景树的基本概念 1023.2.2 情景树方法研究现状 1033.3 情景树生成方法 1073.3.1 基于VAR_MGARCH模型和矩匹配的情景树生成方法 1073.3.2 基于动态混合Copula函数的情景树生成方法 1133.4 情景树约减方法 1183.4.1 基于合并节点的情景树约减方法 1183.4.2 基于随机优化定量稳定性的情景树约减方法 1303.5 数值实验 1373.5.1 情景树生成方法的数值分析 1383.5.2 情景树约减方法的数值分析 1413.6 小结 144第4章 机会约束规划 1454.1 机会约束几何规划问题 1454.2 正态分布下的机会约束 1494.2.1 凸几何逼近 1504.2.2 序列凸逼近 1524.3 基于矩信息的分布鲁棒机会约束 1544.3.1 基于前两阶矩的IRGP 1544.3.2 基于前两阶矩的JRGP 1604.4 基于K_L散度的分布鲁棒机会约束 1654.4.1 基于K_L散度的IRGP 1654.4.2 基于K_L散度的JRGP 1684.5 基于Wasserstein距离的分布鲁棒机会约束 1714.5.1 基于Wasserstein距离的IRGP 1714.5.2 基于Wasserstein距离的JRGP 1794.6 数值实验 1834.6.1 分片线性逼近 1854.6.2 *立和联合机会约束的比较 1864.6.3 正负相关的影响 1874.6.4 机会约束的满足情况 1874.6.5 数据驱动问题 1904.7 小结 191第5章 非平稳强化学习的样本复杂度与泛化能力 1925.1 样本复杂度与泛化能力 1925.2 强化学习的蒙特卡罗抽样方法 1945.2.1 有限期强化学习 1945.2.2 无限期强化学习 2025.3 主动强化学习的样本平均近似方法 2045.3.1 有限期强化学习 2055.3.2 无限期强化学习 2105.4 小结 211第6章 随机优化和强化学习的统一模型 2126.1 引言 2126.2 统一模型导出 2146.2.1 内生随机性及外生随机性 2156.2.2 统一模型 2176.2.3 统一模型与现有模型的关系 2186.3 统一模型的基本性质 2206.4 定量稳定性分析 2356.4.1 关于内生随机性的定量稳定性 2366.4.2 关于外生随机性的定量稳定性 2446.5 小结 267第7章 风险厌恶马氏决策过程与强化学习 2687.1 预备知识 2687.1.1 几类新近提出的MDP模型 2687.1.2 贝叶斯复合风险度量 2697.2 贝叶斯复合风险MDP 2717.3 有限期BCR_MDP问题 2757.4 无限期BCR_MDP问题 2797.4.1 贝尔曼方程与*优性条件 2797.4.2 收敛性分析 2837.5 基于BCR_MDP的价值迭代算法和策略迭代算法 2927.5.1 价值迭代 2927.5.2 策略迭代 2957.6 针对BCR_MDP的样本平均近似算法 2977.7 数值实验 3017.7.1 有限期赌博问题 3017.7.2 无限库存控制问题 3057.8 小结 305第8章 机会约束马氏决策过程与强化学习 3068.1 机会约束马氏决策过程 3068.1.1 通常机会约束马氏决策过程 3098.1.2 分布鲁棒机会约束马氏决策过程 3098.2 基于矩信息的分布鲁棒机会约束马氏决策过程 3108.2.1 J_DRCCMDP问题的等价转化形式 3108.2.2 J_DRCCMDP问题的求解算法 3128.3 基于K_L散度的分布鲁棒机会约束马氏决策过程 3148.3.1 *立K_L DRCCMDP 3178.3.2 联合K_L DRCCMDP 3208.4 分布鲁棒机会约束优化的强化学习方法 3238.4.1 数值实验 3288.5 小结 328第9章 平均场强化学习 3299.1 多智能体系统 3299.2 有限智能体系统的离散平均场强化学习 3309.2.1 有限多智能体的随机博弈 3309.2.2 纳什Q学习 3329.2.3 平均场强化学习 3329.2.4 平均场近似 3349.2.5 算法实现 3349.2.6 数值实验 3369.3 无限智能体系统的连续平均场强化学习 3399.3.1 无限智能体平均场博弈的策略梯度 3399.3.2 连续平均场博弈的策略评估 3509.3.3 连续平均场博弈的Actor_Critic算法 3509.3.4 数值实验 3599.4 小结 362第10章 强化学习在多期投资组合选择中的应用 36410.1 多期投资组合投资概述 36410.2 强化学习鲁棒投资组合选择模型 36610.3 强化学习鲁棒投资组合选择模型的求解 36810.3.1 基于渐近相对效率的双层分解算法 36810.3.2 增广拉格朗日乘子法 36910.3.3 参考分布更新 37010.4 实证研究 37110.5 小结 376参考文献 377《大数据与数据科学专著系列》已出版书目 411【免费在线读】第1章 随机优化与强化学习简介 1.1 随机优化 不确定性是许多决策问题的主要特征,在航班调度、金融投资、电力系统运作等众多领域,忽略不确定性会导致次优甚至错误的决策。虽然有多种方式刻画决策环境中的不确定性,但主流技术则是基于概率论的模型与方法,这就产生了随机规划(stochastic programming, SP)或随机优化(stochastic optimization, SO),以及更一般的不确定下的优化(optimization under uncertainty)。 由于Dantzig[17]、Charnes和Cooper[8]等的开创性工作,随机优化的雏形早在20世纪50年代已经出现,但其真正快速发展主要得益于两方面原因:一是线性规划、非线性规划理论与算法的日臻完善,理论上已经为讨论更复杂情形下的随机优化问题做好了准备;二是决策者对于求解包含大量随机参数的实际决策问题的精度与效率要求越来越高,随机优化现已成为运筹学界的一个重要研究领域,多用于恰当地描述和求解各种随机环境下的复杂决策问题,它在理论和算法上都取得了很大的进展[36,367,457],而且新的随机优化模型、方法不断涌现并成为研究热点,特别是,随机优化在经济与金融、先进设计、生产管理以及人工智能等多个领域得到了广泛应用[250,367,457]。 依照对随机环境或随机约束的不同描述方式,随机优化问题可以分为两阶段有补偿优化问题、多阶段随机优化、机会(概率)约束优化问题等不同类型,本书将对这些模型逐个进行说明。 1.1.1 两阶段有补偿优化问题 为了引入两阶段有补偿优化问题的数学模型,不妨考虑**的报童问题。 设有一报童,每天清晨从批发商处批发报纸到街上零售,每份报纸的批发价为c元,零售价为q(q>c)元,未售出的报纸以r(r
c)元去补货。报童要解决的问题是:他每天清晨批发多少份报纸才能获得*高收益?这里的困难在于报童在批发报纸时并不能完全确定当天他能卖出多少份报纸,即报纸的随机需求量是未知的,但根据他历来的经验,报童能够知道随机需求量的分布规律。 假设报童批发x份报纸,由于自身购买力或批发商对每个零售商的限制,x不应超过某个上界,在销售阶段,报童将面临三种可能: (1)若需求等于订货量x,报童批发的报纸正好卖完,则获得纯收入(q_c)x元; (2)若,则报童批发的报纸没有卖完,记剩余报纸数量为,假设其可以退回给批发商进行统一处理,但报童比刚好卖完的情况下多损失元,获得纯收入元; (3)若,则报童批发的报纸全部卖完后还不够,仍需份报纸要补充,此时报童比刚好卖完的情况下多损失元,获得纯收入元。 显然,上述的,依赖随机需求量,不可能同时非零,且应满足约束。 对于选定的决策变量x和随机变量的某一实现值,报童应妥善选择,使得蒙受的损失尽可能达到*小,即其为下列优化问题的*优解: 由于报童选择x时还不知道的具体实现值,一个合理的做法是考虑上述损失的数学期望值,那么报童所获收入的数学期望值为,从而报童所面临的决策问题可描述为 上述模型体现了报童问题的两阶段(two_stage)特征:在**阶段决策中,报童需要在不知道随机需求量具体实现值的前提下,决定当天的报纸订购量x,而的具体实现值只有在所谓的第二阶段(second stage)才能获知,此时报童才能确定具体损益值并决定是否采取相应的补偿行动(recourse action),即,如是否以较高的成本b追加订购份。 报童问题代表了诸多应用领域中产生的一类典型随机优化问题,其决策可分为两个阶段:**阶段需在随机事件发生前做出一个here_and_now决策,也称为当前决策;而第二阶段决策则是在随机事件发生后,为了弥补可能产生的损失做出一个wait_and_see决策,也称为补偿决策(recourse decision),此即所谓的两阶段有补偿模型,其一般形式可表示为 其中表示**阶段决策变量的可行域,是概率空间上的随机向量,为样本空间,为在上的域。设是随机向量的支撑集,F为其定义在支撑集上的概率分布。是对应**阶段决策的目标函数,与随机变量无关,称为补偿(recourse)函数,是如下第二阶段补偿问题的*优值: 其中,集值映射表示第二阶段决策变量可以取值的范围,一般文献中常规定为第二阶段补偿问题的目标函数,分别是矩阵值或者向量值映射。文献中通常将等式约束(1.2b)中的系数T(),W()与h()分别称为技术矩阵(technology matrix)、补偿矩阵(fixed matrix)与右端向量;若T(),W(),h()都定不变,则称问题(1.2)为固定补偿(fixed recourse)问题;若T(),W(),h()都是随机的,则称问题(1.2)为全随机补偿(fully random recourse)问题。考虑到第二阶段决策变量y是在选定x且观测到的实现值后的决策,补偿问题(1.2)对某些和可能不可行。为区分不同情形,人们引入了如下概念:若对任意的,第二阶段问题总是可行的,则称两阶段有补偿问题(1.1)_(1.2)满足完备补偿(complete recourse);若对任意的,第二阶段问题是可行的,则称其满足相对完备补偿(relatively complete recourse)。完备补偿的一个例子与上述报童问题所展示的一样,是固定补偿矩阵的特定形式,文献中称其为简单补偿(simple recourse)。若引入函数,则可将两阶段有补偿问题写成如下的紧凑形式: 当及约束条件关于决策变量均为线性关系时,相应的两阶段有补偿问题就是两阶段线性随机优化问题。关于第二阶段问题*优值函数的可测性、连续性、凸性等基本性质,以及问题(1.1)_(1.2)的*优性条件、对偶理论、确定性等价等,Kall,Wets,Walkup和Rockafellar等学者做了一系列开创性工作,相关成果总结在Ruszczyński和Shapiro所编撰的文集[438]的**章和第二章,以及Shapiro等所著的专著[457]中。对于该类优化问题,当仅有右端向量随机且满足完备补偿和对偶可行等条件时,R?misch和Schultz[429]在Hausdorff距离下导出了该问题*优解集的局部H?lder连续性和*优值函数的Lipschitz连续性。Shapiro[450]直接对期望补偿函数进行分析,在其满足二阶增长条件且W为简单补偿矩阵时,得到了*优解集的上半Lipschitz连续性。当中的补偿费用q()也为随机变量时,Rachev和R?misch[405]利用参数线性规划中*优值函数的具体表达,在Fortet_Mourier概率度量下研究了*优值函数和*优解集的定量稳定性。对于全随机两阶段线性随机优化问题,R?misch和Wets[428]研究了*优值函数和近似*优解集的Lipschitz连续性,其他更多关于两阶段线性随机优化问题的基本性质和理论,可查阅文献[60],[271],[506],[507],[521]。 当问题(1.3)中的目标函数与约束条件中出现非线性关系时,相应的两阶段问题就是两阶段非线性随机优化问题。相比线性情形,非线性关系能更准确地反映复杂实际决策问题,细化刻画各种变量之间的关系。由于其涉及的目标函数或约束条件比较复杂,分析或求解这类非线性优化问题是比较困难的,这里,连续二次补偿问题作为线性补偿问题的直接推广,得到了学者们的广泛关注[424,455],且已有相对完善的理论,典型的带二次补偿的两阶段问题可表述为[301] 其中为下述第二阶段问题的*优值函数: 其中为对称矩阵,其余符号含义同问题(1.2)。带二次补偿的两阶段问题*初是由Rockafellar和Wets在文献[420]中提出的,并在目标函数为严格凸函数时,基于拉格朗日有限生成技术给出了具有线性收敛率的求解算法。之后,Chen等[91]、Chen和Womersley[92]、Mehrotra和Qvevin[381]等学者通过利用非线性规划的已有方法,设计了求解问题(1.4)_(1.5)的相关算法。一直以来,随机优化的理论成果(如*优性、*优解集的Lipschitz连续性等性质),关于随机优化的理论结果,研究*优值、*优解集的Lipschitz连续性等性质。 传统的随机优化问题(1.3),是通过对两阶段问题的随机费用(如随机费用)取期望来寻求*优决策,这本质上是一种风险中性(risk neutral)的决策方法,这种建模方法无法反映实际世界中大多数理性决策者的行为,因为他们都是风险厌恶(risk averse)的。概率论中风险偏好的**方法是利用经济学领域中的期望效用理论(expected utility theory),将决策者的风险偏好和决策行为联系起来,但在实际应用中,人们往往很难确定效用函数的恰当形式。为此,借鉴金融风险刻画领域的做法,近年来不少学者通过引入风险度量(risk measure)的概念,来刻画决策者对潜在损失的厌恶程度,从而提出了风险厌恶的两阶段随机优化问题[75,418,419],这里的关键是的选取,通常的做法是选择满足平移不变性、单调性、正齐次性和次可加性的一致风险度量(coherent risk measure)[393,467]或满足平移不变性、单调性和凸性的凸风险度量(convex risk measure),进而,\rho(\cdot)还可选取为偏差度量(deviation measure)[118]、下概率和上概率度量(distortion risk measure)[251]等等,一旦选择了\rho(\cdot),就可以基于模型(1.3)构建所谓的均值_风险(mean_risk)随机优化模型[171]: 这里的权重系数\lambda>0反映决策者的风险厌恶程度,越大,决策者的风险厌恶程度越高。选择不同的风险函数,对应问题(1.6)的性质和求解会存在一定的差异。当为凸、下半连续的凸风险函数时,问题(1.6)是关于x的凸优化问题,且目标函数的次梯度存在(或次微分非空),可利用随机次梯度算法等求解。关于均值_风险随机优化问题的理论问题,Ahmed[7]分析了选取不同风险度量对保凸性、问题可解性的影响,并提出了参数化期望和算法。Miller和Ruszczyński[384]基于一致风险度量构建了风险中性的多阶段凸随机优化问题,探讨了其*优性条件和基于分解算法、条件在险价值(conditional value_at_risk, CVaR)是广为采纳和研究的另一种一致风险度量,Yigitmaz等[506]探讨了满足相对完备补偿的均值_条件在险价值的两阶段随机优化问题,针对大规模情形设计了约束生成算法,并分析了其收敛性。更多关于均值_风险类随机优化问题的研究可参考Fabian[157]、Shapiro等[457]的文献。 1.1.2 两阶段混合整数随机优化 在数学管理、生产计划等问题中,某个产品的生产批量或者存量必须是整数,例如,在库存管理的其他分支,整数变量在许多随机优化模型中是不可或缺的。若两阶段线性随机优化问题中**、二阶段的部分决策变量含有整数约束,则可得到两阶段混合整数随机优化(two_stage mixed integer stochastic optimization)问题,其一般形式可表示为[424,445]: 这里,分别表示**阶段维整数变量和维连续变量,\mathcal{X}的基本限制;为如下第二阶段混合整数补偿问题的*优值: 其中均是依赖随机向量的矩阵值或者向量值映射,分别为依赖的整值和连续值补偿决策向量。 特别地,若前一补偿的两