基于自回归预测模型的深度注意力强化学习方法
作者:
作者单位:

作者简介:

梁星星(1992-),男,山西永济人,硕士,主要研究领域为多agent智能规划,多agent深度强化学习;王琦(1992-),男,硕士,主要研究领域为不确定性可控的强化学习,贝叶斯统计学习;冯旸赫(1985-),男,博士,副教授,主要研究领域为因果发现与推理,主动学习,强化学习;马扬(1993-),男,硕士,主要研究领域为网络嵌入,链路预测,图神经网络;黄金才(1973-),男,博士,教授,博士生导师,主要研究领域为智能调度与控制;刘忠(1968-),男,博士,教授,博士生导师,主要研究领域为多智能体系统.

通讯作者:

冯旸赫,E-mail:fengyanghe@yeah.net

中图分类号:

TP311

基金项目:

国家自然科学基金(71701205)


Novel Deep Reinforcement Learning Algorithm Based on Attention-based Value Function and Autoregressive Environment Model
Author:
Affiliation:

Fund Project:

National Natural Science Foundation of China (71701205)

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    近年来,深度强化学习在各种决策、规划问题中展示了强大的智能性和良好的普适性,出现了诸如AlphaGo、OpenAI Five、Alpha Star等成功案例.然而,传统深度强化学习对计算资源的重度依赖及低效的数据利用率严重限制了其在复杂现实任务中的应用.传统的基于模型的强化学习算法通过学习环境的潜在动态性,可充分利用样本信息,有效提升数据利用率,加快模型训练速度,但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.结合基于模型和无模型两类强化学习的优势,提出了一种基于时序自回归预测模型的深度注意力强化学习方法.利用自编码模型压缩表示潜在状态空间,结合自回归模型建立环境预测模型,基于注意力机制结合预测模型估计每个决策状态的值函数,通过端到端的方式统一训练各算法模块,实现高效的训练.通过CartPole-V0等经典控制任务的实验结果表明,该模型能够高效地建立环境预测模型,并有效结合基于模型和无模型两类强化学习方法,实现样本的高效利用.最后,针对导弹突防智能规划问题进行了算法实证研究,应用结果表明,采用所提出的学习模型可在特定场景取得优于传统突防规划的效果.

    Abstract:

    Recently, deep reinforcement learning (DRL) is believed to be promising in continuous decision-making and intelligent scheduling problems, and some examples such as AlphaGo, OpenAI Five, and Alpha Star have demonstrated the great generalization capability of the paradigm. However, the inefficient utility of collected experience dataset in DRL restricts the universal extension to more practical scenarios and complicated tasks. As the auxiliary, the model-based reinforcement learning can well capture the dynamics of environment and bring the reduction in experience sampling. This study aggregates the model-based and model-free reinforcement learning algorithms to formulate an end-to-end framework, where the autoregressive environment model is constructed, and attention layer is incorporated to forecast state value function. Experiments on classical CartPole-V0 and so on witness the effectiveness of proposed framework in simulating environment and advancing utility of dataset. Finally, penetration mission as the practical instantiation is successfully completed with the framework.

    参考文献
    相似文献
    引证文献
引用本文

梁星星,冯旸赫,黄金才,王琦,马扬,刘忠.基于自回归预测模型的深度注意力强化学习方法.软件学报,2020,31(4):948-966

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-05-31
  • 最后修改日期:2019-07-29
  • 录用日期:
  • 在线发布日期: 2020-01-14
  • 出版日期: 2020-04-06
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号