黄文振(1992-), 男, 博士, 主要研究领域为强化学习
尹奇跃(1990-), 男, 博士, 副研究员, CCF专业会员, 主要研究领域为机器学习, 数据挖掘, 人工智能与游戏
张俊格(1986-), 男, 博士, 研究员, 主要研究领域为博弈决策, 强化学习, 模式识别, 人工智能
黄凯奇(1977-), 男, 博士, 研究员, 博士生导师, CCF杰出会员, 主要研究领域为计算机视觉, 模式识别, 人机对抗, 视觉监控应用
基于模型的强化学习方法利用已收集的样本对环境进行建模并使用构建的环境模型生成虚拟样本以辅助训练, 因而有望提高样本效率. 但由于训练样本不足等问题, 构建的环境模型往往是不精确的, 其生成的样本也会因携带的预测误差而对训练过程产生干扰. 针对这一问题, 提出了一种可学习的样本加权机制, 通过对生成样本重加权以减少它们对训练过程的负面影响. 该影响的量化方法为, 先使用待评估样本更新价值和策略网络, 再在真实样本上计算更新前后的损失值, 使用损失值的变化量来衡量待评估样本对训练过程的影响. 实验结果表明, 按照该加权机制设计的强化学习算法在多个任务上均优于现有的基于模型和无模型的算法.
Model-based reinforcement learning methods train a model to simulate the environment by using the collected samples and utilize the imaginary samples generated by the model to optimize the policy, thus they have potential to improve sample efficiency. Nevertheless, due to the shortage of training samples, the environment model is often inaccurate, and the imaginary samples generated by it would be deleterious for the training process. For this reason, a learnable weighting mechanism is proposed which can reduce the negative effect on the training process by weighting the generated samples. The effect of the imaginary samples on the training process is quantified through calculating the difference between the losses on the real samples before and after updating value and policy networks by the imaginary samples. The experimental results show that the reinforcement learning algorithm using the weighting mechanism is superior to existing model-based and model-free algorithms in multiple tasks.
强化学习在许多领域取得了令人瞩目的成果, 如在雅达利游戏[
早期的研究工作表明, 在一些简单的低维输入的控制任务上, 利用线性或贝叶斯模型对环境进行建模的强化学习方法表现出了优异的性能[
针对上述模型误差问题, 有许多不同的解决思路, 例如: 通过集成多个概率模型来模拟预测状态的后验分布, 再使用这些模型来规划, 得到该后验分布下的期望奖励最大的决策[
另有一些工作考虑调整动力学模型的使用方式(model usage)以减少模型误差对策略学习的不利影响, 也取得了一定的效果, 例如: 先估计动作价值网络预测的不确定度, 仅在不确定度高于某一阈值的情况下, 才使用动力学模型生成相关数据进行训练[
以上调整方案较为简单且大多数方案在整个训练过程中保持不变, 这导致部分生成数据即使是完全准确的, 也可能会在训练流程中的某些阶段始终被忽略. 本文考虑自适应地过滤掉具有较大预测偏差的生成样本, 来减小这些样本对价值和策略网络训练的负面影响, 进而减轻由模型偏差引起的策略性能下降. 但样本的实际预测偏差无法直接获得, 即使利用不确定度来评估潜在预测偏差的大小, 也会存在阈值难以设定的问题, 例如: 当价值网络由于欠拟合导致值估计存在较大偏差时, 即使是具有较大预测误差的样本也可用于优化该网络.
针对上述问题, 本文尝试量化生成样本对训练过程的影响, 并基于此来对它们进行重加权, 从而自适应地调整动力学模型的使用方式. 整体思路类似于交叉验证, 先使用生成样本来更新价值和策略网络, 再将更新前后的网络分别作用在真实样本上, 对比优化目标(例如时序差分的平方)的数值变化, 以此来衡量生成样本对训练过程的影响, 并根据影响是有利还是有害来决定生成样本的权重. 为了方便地获取新生成样本的权重, 本文考虑训练一个权重预测网络来为每个生成样本提供合适的权重, 该网络根据输入样本的特征(如: 样本中状态和奖励预测的不确定度), 输出一个介于0到1之间的权重.
上述量化标准可以直接用于权重预测网络的优化: 给定任意生成样本, 使用权重预测网络为其预测权重, 然后使用加权后的优化目标更新价值网络和策略网络的参数. 将更新前后的参数和真实样本分别带入到优化目标中, 更新前后优化目标的差异即反映了加权样本对训练过程的影响. 由于更新后的优化目标对更新后的参数可导, 而参数更新的步长是通过权重预测网络的输出来参数化的, 并且更新前的优化目标与权重网络的输出无关, 因此可以使用链式法则通过对优化目标的前后差异求权重预测网络参数的导数来优化权重预测网络. 考虑到更新价值和策略网络时, 学习率对参数更新过程的影响, 本文将真实样本加入上述过程来调节该学习率. 考虑到同一个样本对价值网络和策略网络的作用通常并不相同, 所以本文使用两个权重预测网络分别预测样本在价值函数和策略函数训练过程中的适宜权重. 以上优化方法可以视为是元学习方法[
实验结果表明, 在多个控制任务上, 本文提出的方法优于当前最优的基于模型和无模型的强化学习方法. 使用加权样本更新的参数所对应的价值预测损失明显小于未加权方法所对应的损失, 这一现象意味着, 对训练过程具有不利影响的样本确实地被权重预测网络以减少权重的方式过滤掉了. 对比文献[
本文在先前工作[
标准强化学习设定下, 环境可由以下元素来定义: 状态空间
基于模型的强化学习方法通常会利用已收集到的轨迹来学习一个动力学模型, 以模拟真实环境的状态转移过程, 并基于该模型更快地学习到好的决策. 但在环境较为复杂或收集到真实样本较少的情况下, 学习到的动力学模型通常是不完美的, 这样, 由它生成的样本也将带有预测误差, 而这些带有预测误差的样本往往会对价值和策略函数的训练过程产生负面影响. 因此, 本文尝试构造一种可学习的重加权机制来最小化生成样本的负面影响.
为了高效地获取新生成样本所对应的适宜权重, 即能够最小化加权后样本对训练过程不利影响的权重, 本文构建一个权重预测网络来预测输入样本所对应的权重. 针对不利影响这一抽象的概念, 本文通过类似于交叉验证的方法来进行度量: 先使用重加权的样本来更新价值和策略网络, 再将更新前后的网络参数作用于真实样本上计算损失函数数值的变化, 该变化即反映了重加权样本对训练过程的影响. 由于更新前的损失值与预测的权重无关, 因此最小化更新后的损失值即可最小化重加权样本的负面影响. 该损失对更新后的价值和策略网络的参数可导, 更新后的参数可通过更新梯度对预测权重进行求导, 而预测权重由权重预测网络的参数参数化, 因此可以利用链式法则求取更新后的损失对权重预测网络参数的梯度, 并以此来优化权重预测网络.
值得注意的是, 权重的大小与更新价值和策略网络时的学习率密切相关, 当学习率过大时, 即使是真实样本在以上评估过程中, 也会获得一个较小的权重, 因此需要对更新过程的学习率进行自适应的调整. 一个合适的学习率应该保证使用真实样本更新价值和策略网络后, 损失值减小或保持不变. 所以, 将该更新过程中的学习率视为一个可学习的参数, 按照上文优化权重网络的方法使用真实样本对其进行优化. 为了更高效地训练, 将真实样本视为权重为1的生成样本与普通的生成样本一起加入权重网络和学习率优化过程. 此外, 考虑到同一个样本对价值网络和策略网络的作用通常并不相同, 所以使用两个权重预测网络分别预测样本在价值网络和策略网络训练过程中的适宜权重. 权重预测网络的训练过程如
训练框架
为保证权重预测网络有足够的信息来为每个输入样本提供合适的权重, 本文使用集成的自举概率神经网络(bootstrapped probabilistic neural network)为动力学模型, 该网络结构可以估计生成样本中状态和奖励预测结果的不确定度, 该不确定度可以提供生成样本所带有的潜在预测误差大小的信息. 加权后的样本将通过无模型的强化学习算法对价值和策略网络进行更新, 本文选用SAC (soft actor-critic)算法[
接下来, 将详细介绍以下3个部分: 动力学模型的训练方法, 权重预测网络的网络结构, 以及权重预测网络的训练方法.
在上文描述的算法框架中, 动力学模型的功能有两个: (1)根据输入状态和动作对下一时刻的状态进行预测, 从而获取到生成样本; (2)提供一些信息, 例如不确定度, 用以辅助对这些样本的权重预测.
为了保证动力学模型的功能齐全, 本文仿照PETS[
给定状态
由于单个样本
为了更好地预测样本的权重, 本文为每个样本集
特征向量中的预测奖励、预测状态和预测状态价值的不确定度, 直接反映了生成样本在这3个层面的置信程度, 或者说是生成样本与其对应的真实样本在这3个层面上的潜在偏差程度, 所以权重预测网络需要这些信息来调整权重. 为了避免不同特征的数值尺度间存在巨大差异, 本文对特征向量的每一维分别维护一个移动平均值和一个移动方差值, 在将特征向量送入权重预测网络之前, 会使用移动平均值和移动方差值对每一维进行归一化.
针对动作价值网络和策略网络的训练, 本文使用两个结构相同但参数不同的权重预测网络分别为样本提供权重, 它们的参数分别记为
神经网络框架
本节将说明如何训练权重预测网络, 使其能够为生成样本提供适当的权重, 从而最大程度地减少这些样本对训练过程的不利影响.
权重预测网络的训练过程和其他元学习方法一样可以分为内层优化和外层优化两个步骤: 内层优化——使用重加权后的样本来更新动作价值网络和策略网络, 外层优化——使用真实样本计算更新后参数的损失, 并利用链式法则通过最小化更新后的损失来优化权重网络. 为了更高效且更稳定地训练, 每次会随机生成一批生成样本并随机选择一批真实样本进行以上训练过程.
● 内层优化. 从经验池中随机选择
其中,
其中,
● 外层优化. 从经验池里再随机选出
该损失对参数
求取出梯度后, 可以通过任何优化算法来更新参数
● 交替优化权重预测网络与动作价值网络和策略网络. 随着动作价值网络和策略网络的更新, 生成样本的适宜权重也会随之改变, 所以需要交替地优化权重预测网络与动作价值网络和策略网络, 以保证前者可以随后者精度的变化而自适应地进行调整. 动作价值网络和策略网络的更新方式为, 从经验池中选择
在该算法中, 真实样本不仅被应用于训练动力学模型和优化权重预测网络, 而且还被用于训练动作价值网络和策略网络. 真实样本可以一定程度抑制因预测偏差较大的样本导致的动作价值网络预测误差过大问题, 而且在生成样本的预测权重均较低时, 能够避免算法陷入停滞.
本节将使用基于模型的强化学习基准测试集[
● 动力学模型. 动力学模型由5个全连接神经网络(fully connected neural networks)组成, 每个网络均包含4层宽度为200的隐藏层, 网络中的非线性激活函数为:
● 动作价值网络和策略网络. 动作价值网络和策略网络是两个单独的全连接神经网络, 每个网络均包含2层宽度为256的隐藏层, 网络中的非线性激活函数为ReLU. 该模型同样使用Adam算法进行优化, 算法的参数为: 学习率等于3E–4,
● 权重预测网络. 权重预测网络从输入到输出依次由一个宽度为64的全连接层、一个隐藏单元为16的GRU模块和一个宽度为 1 的全连接层组成, 最后一层的输出会通过一个Sigmoid激活函数转化0到1之间. 该模型同样使用Adam算法进行优化, 算法的参数为: 学习率等于1E–4,
在最初的10000个时间步(智能体与环境交互一次为一步)中, 智能体的行动是通过对所有可行的动作进行均匀随机采样来决定的. 从第3000个时间步, 开始训练权重预测网络以及动作价值网络和策略网络. 在每一个时间步, 从经验池中随机采样出
本节将对LR-MPO与当前最优的无模型和基于模型的强化学习方法进行了对比, 其中, 无模型的方法包括: SAC[
算法的最终性能
算法 | Ant | HalfCheetah | Hopper | SlimHumanoid | Swimmer-v0 | Walker2D |
ME-TRPO | 282.2±18.0 | 2283.7±900.4 | 1272.5±500.9 | −154.9±534.3 | 30.1±9.7 | −1609.3±657.5 |
MB-MPO | 705.8±147.2 | 3639.0±1185.8 | 333.2±1189.7 | 674.4±982.2 | 85.0±98.9 | −1545.9±216.5 |
PETS | 1165.5±226.9 | 2795.3±879.9 | 1125.0±679.6 | 1472.4±738.3 | 22.1±25.2 | 260.2±536.9 |
POPLIN | 2330.1±320.9 | 4235.0±1133.0 | 2055.2±613.8 | −245.7±141.9 | 37.1±4.6 | 597.0±478.8 |
MBPO | 4332.5±1277.6 | 10758.9±1413.7 | 2950.4±819.1 | 26.3±13.3 | 4154.7±846.1 | |
TD3 | 956.1±66.9 | 3614.3±82.1 | 2245.3±232.4 | 1319.1±1246.1 | 40.4±8.3 | −73.8±769.0 |
SAC-200k | 922.0±283.0 | 6129.3±775.7 | 2365.1±193.4 | 1891.6±379.2 | 49.7±5.8 | 1642.7±606.9 |
PE-SAC | 4033.5±1480.5 | 2202.6±363.5 | 1436.8±490.8 | 26.6±25.4 | 2673.8±2264.8 | |
Rew-PE-SAC | 9779.8±546.6 | 2824.0±159.9 | 11755.9±11152.2 | 82.2±33.4 | ||
LR-MPO | 3857.8±2514.5 | |||||
SAC-1000K | 4994.9±719.5 | 10283.8±648.4 | 2990.3±214.3 | 29122.5±11129.0 | 86.8±6.4 | 5094.0±1371.3 |
训练过程中收益的可视化曲线
如
将加权与不加权的方法——算法PE-SAC与算法Rew-PE-SAC和LR-MPO进行对比, 可以看出在大多数环境中, 加权的方法都有着更好的性能. 这表明学习到的权重预测网络为生成样本提供了适当的权重, 有效地帮助算法训练出更好的策略. 在环境HalfCheetah上Rew-PE-SAC性能次于PE-SAC, 可能的原因是样本权重被低估所导致的.
通过观察
本节将比较加权和不加权的方法下动作价值预测损失的不同. 在环境Ant、HalfCheetah、SlimHumanoid和Swimmer中运行PE-SAC、ReW-PE-SAC和LR-MPO, 并记录每一轮(1000个时间步)真实样本上的平均动作价值预测损失. 多次重复实验, 记录相同时间步下损失值的最小值、最大值和平均值并绘制于
训练过程中动作价值预测损失的可视化曲线
如
值得注意的是环境HalfCheetah上的结果, ReW-PE-SAC和LR-MPO在该环境中都有着较低的预测损失, 但LR-MPO有着更好的性能. 这说明LR-MPO能够避免对部分样本权重的低估, 从而更充分地利用生成样本进行训练.
本节将分析预测权重的总体变化趋势. 在环境HalfCheetah中运行ReW-PE-SAC和LR-MPO算法, 在每一轮(1000时间步)的开始时记录生成样本的权重. 预测权重是随着动作价值和策略网络的训练而不断变化, 由于随机性的存在, 每次实验的训练过程往往是不一样的, 强行将不同训练情况下的权重进行整合, 反而难以看出权重的变化趋势, 因此这里只进行一次实验. 内部优化过程中的学习率与样本权重的25%分位数, 中位数和75%分位数被记录并绘制于
预测权重变化趋势的可视化
对比ReW-PE-SAC和LR-MPO的权重的变化趋势, 可以发现: 前者的权重在训练的中后期快速下跌到接近零, 生成样本基本无法加入训练过程, 但这并不是一个合理的加权方案, 由
本文提出了一种有效的基于模型的强化学习方法LR-MPO, 该方法通过训练一个权重预测网络来自适应地调整生成样本的权重, 以减少它们对训练过程的负面影响. 重加权后的生成样本对训练过程的影响通过以下流程来量化: 使用它们对动作价值网络和策略网络进行更新, 在真实样本上计算更新前后优化目标的变化. 量化后的负面影响被用于改进权重预测网络, 即通过链式法则对更新后的优化目标求权重网络参数的导数, 然后根据梯度更新网络参数. 考虑到更新动作价值网络和策略网络时, 学习率对参数变化的影响, LR-MPO将真实样本加入上述过程来调节该学习率. 同时, 考虑到同一个样本对价值网络和策略网络的作用通常并不相同, 所以使用两个权重预测网络分别预测样本在动作价值网络和策略网络训练过程中的适宜权重.
实验结果表明, LR-MPO在多个复杂的连续控制任务上均获得了当前最优的性能. 学习到的权重预测网络可以在训练过程的不同阶段为不同的生成样本提供合理的权重, 将动作价值的预测损失保持在较低的水平的同时, 充分地利用生成样本进行训练.
Mnih V, Kavukcuoglu K, Silver D, Rusu AA, Veness J, Bellemare MG, Graves A, Riedmiller M, Fidjeland AK, Ostrovski G, Petersen S, Beattie C, Sadik A, Antonoglou I, King H, Kumaran D, Wierstra D, Legg S, Hassabis D. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529–533. [doi: 10.1038/nature14236]
Silver D, Huang A, Maddison CJ, Guez A, Sifre L, Van Den Driessche G, Schrittwieser J, Antonoglou I, Panneershelvam V, Lanctot M, Dieleman S, Grewe D, Nham J, Kalchbrenner N, Sutskever I, Lillicrap T, Leach M, Kavukcuoglu K, Graepel T, Hassabis D. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, 529(7587): 484–489. [doi: 10.1038/nature16961]
Mousavi SS, Schukat M, Howley E. Traffic light control using deep policy-gradient and value-function-based reinforcement learning. IET Intelligent Transport Systems, 2017, 11(7): 417–423. [doi: 10.1049/iet-its.2017.0153]
http://www.jos.org.cn/1000-9825/6191.htm]]>
http://www.jos.org.cn/1000-9825/6191.htm]]>
Liang XY, Du XS, Wang GL, Han Z. A deep reinforcement learning network for traffic light cycle control. IEEE Transactions on Vehicular Technology, 2019, 68(2): 1243–1253. [doi: 10.1109/TVT.2018.2890726]
Deng Y, Bao F, Kong YY, Ren ZQ, Dai QH. Deep direct reinforcement learning for financial signal representation and trading. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(3): 653–664. [doi: 10.1109/TNNLS.2016.2522401]
http://www.jos.org.cn/1000-9825/5689.htm]]>
http://www.jos.org.cn/1000-9825/5689.htm]]>
黄凯奇, 兴军亮, 张俊格, 倪晚成, 徐博. 人机对抗智能技术. 中国科学: 信息科学, 2020, 50(4): 540–550. [doi: 10.1360/N112019-00048].
Huang KQ, Xing JL, Zhang JG, Ni WC, Xu B. Intelligent technologies of human-computer gaming. Scientia Sinica Informationis, 2020, 50(4): 540–550 (in Chinese with English abstract). [doi: 10.1360/N112019-00048]
http://www.jos.org.cn/1000-9825/5930.htm]]>
http://www.jos.org.cn/1000-9825/5930.htm]]>