结构交互驱动的机器人深度强化学习控制方法
作者:
作者单位:

作者简介:

余超(1985-),男,博士,副教授,CCF专业会员,主要研究领域为智能体与多智能体系统,强化学习,智能机器人;冯旸赫(1985-),男,博士,副教授,博士生导师,主要研究领域为智能指挥控制,强化学习;董银昭(1995-),男,博士生,CCF学生会员,主要研究领域为强化学习,智能机器人;卓汉逵(1982-),男,副教授,博士生导师,CCF高级会员,主要研究领域为智能规划,强化学习,自然语言处理,机器人行为控制;郭宪(1985-),男,博士,副教授,博士生导师,主要研究领域为强化学习,多智能体技术,博弈论等在机器人领域中的研究和应用;张强(1971-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为机器行为与人机协同,生物计算.

通讯作者:

余超,E-mail:yuchao3@mail.sysu.edu.cn

中图分类号:

TP18

基金项目:

国家自然科学基金(U1908214, 62076259); 腾讯犀牛鸟基金(JR202063)


Structure-motivated Interactive Deep Reinforcement Learning for Robotic Control
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对深度强化学习在高维机器人行为控制中训练效率低下和策略不可解释等问题, 提出一种基于结构交互驱动的机器人深度强化学习方法(structure-motivated interactive deep reinforcement learning, SMILE).首先, 利用结构分解方法将高维的单机器人控制问题转化为低维的多关节控制器协同学习问题, 从而缓解连续运动控制的维度灾难难题; 其次, 通过两种协同图模型(ATTENTION和PODT)动态推理控制器之间的关联关系, 实现机器人内部关节的信息交互和协同学习; 最后, 为了平衡ATTENTION和PODT协同图模型的计算复杂度和信息冗余度, 进一步提出两种协同图模型更新方法APDODT和PATTENTION, 实现控制器之间长期关联关系和短期关联关系的动态自适应调整. 实验结果表明, 基于结构驱动的机器人强化学习方法能显著提升机器人控制策略学习效率. 此外, 基于协同图模型的关系推理及协同机制, 可为最终学习策略提供更为直观和有效的解释.

    Abstract:

    This study proposes structure-motivated interactive deep reinforcement learning (SMILE) method to solve the problems of low training efficiency and inexplicable strategy of deep reinforcement learning (DRL) in high-dimensional robot behavior control. First, the high-dimensional single robot control problem is transformed into a low-dimensional multi-controllers control problem according to some structural decomposition schemes, so as to solve the curse of dimensionality in continuous control. In addition, SMILE dynamically outputs the dependency among the controllers through two coordination graph (CG) models, ATTENTION and PODT, in order to realize the information exchange and coordinated learning among the internal joints of the robot. In order to balance the computational complexity and information redundancy of the above two CG models, two different models, APODT and PATTENTION, are then proposed to update the CG, which can realize the dynamic adaptation between the short-term dependency and long-term dependency among the controllers. The experimental results show that this kind of structurally decomposed learning can improve the learning efficiency substantially, and more explicit interpretations of the final learned policy can be achieved through the relational inference and coordinated learning among the components of a robot.

    参考文献
    相似文献
    引证文献
引用本文

余超,董银昭,郭宪,冯旸赫,卓汉逵,张强.结构交互驱动的机器人深度强化学习控制方法.软件学报,2023,34(4):1749-1764

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-09-30
  • 最后修改日期:2022-03-30
  • 录用日期:
  • 在线发布日期: 2023-04-04
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号