显式知识推理和深度强化学习结合的动态决策
作者:
作者单位:

作者简介:

张昊迪(1986-),男,博士,助理教授,CCF专业会员,主要研究领域为人工智能,知识表示与推理,深度学习,人工智能在自然语言处理、游戏、医疗等领域的应用;陈振浩(1995-),男,硕士生,主要研究领域为深度学习,知识表示与推理,游戏智能;陈俊扬(1990-),男,博士,助理教授,CCF专业会员,主要研究领域为数据挖掘,人工智能,推荐系统,自然语言处理,图神经网络的理论研究,时序推荐模型;周熠(1981-),男,博士,研究员,博士生导师,主要研究领域为认知人工智能基础,真实动态复杂环境中知识的表示、推理和学习,显式的符号知识与隐式的神经网络深度融合的理论模型;连德富(1985-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为人工智能,数据挖掘,深度学习,推荐系统;伍楷舜(1985-),男,博士,特聘教授,博士生导师,CCF专业会员,主要研究领域为物联网,智能可穿戴计算,无线传感网络,无线干扰管理,无线室内定位,认知无线电,普适计算;林方真(1963-),男,博士,教授,博士生导师,主要研究领域为人工智能,知识表示与推理,逻辑程序语言,机器人,多智能体,博弈论与社会选择理论

通讯作者:

伍楷舜,E-mail:wu@szu.edu.cn;林方真,E-mail:flin@cse.ust.hk

中图分类号:

TP18

基金项目:

国家自然科学基金(61806132,U2001207,61872248);广东省自然科学基金(2017A030312008);深圳市自然科学基金(ZDSYS20190902092853047,R2020A045);珠江人才计划(2019ZT08X603);广东省普通高校创新团队项目(2019KCXTD005)


Dynamic Decision Making Based on Explicit Knowledge Reasoning and Deep Reinforcement Learning
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    近年来, 深度强化学习在序列决策领域被广泛应用并且效果良好, 尤其在具有高维输入、大规模状态空间的应用场景中优势明显. 然而, 深度强化学习相关方法也存在一些局限, 如缺乏可解释性、初期训练低效与冷启动等问题. 针对这些问题, 提出了一种基于显式知识推理和深度强化学习的动态决策框架, 将显式的知识推理与深度强化学习结合. 该框架通过显式知识表示将人类先验知识嵌入智能体训练中, 让智能体在强化学习中获得知识推理结果的干预, 以提高智能体的训练效率, 并增加模型的可解释性. 将显式知识分为两种, 即启发式加速知识与规避式安全知识. 前者在训练初期干预智能体决策, 加快训练速度; 而后者将避免智能体作出灾难性决策, 使其训练过程更为稳定. 实验表明, 该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率, 并增加了模型的可解释性.

    Abstract:

    In recent years, deep reinforcement learning has been widely used in sequential decisions with positive effects, and it has outstanding advantages in application scenarios with high-dimensional input and large state spaces. However, deep reinforcement learning faces some limitations such as a lack of interpretability, inefficient initial training, and a cold start. To address these issues, this study proposes a dynamic decision framework combing explicit knowledge reasoning with deep reinforcement learning. The framework successfully embeds the priori knowledge in intelligent agent training via explicit knowledge representation and gets the agent intervened by the knowledge reasoning results during the reinforcement learning, so as to improve the training efficiency and the model’s interpretability. The explicit knowledge in this study is categorized into two kinds, namely, heuristic acceleration knowledge and evasive safety knowledge. The heuristic acceleration knowledge intervenes in the decision of the agent in the initial training to speed up the training, while the evasive safety knowledge keeps the agent from making catastrophic decisions to keep the training process stable. The experimental results show that the proposed framework significantly improves the training efficiency and the model’s interpretability under different application scenarios and reinforcement learning algorithms.

    参考文献
    相似文献
    引证文献
引用本文

张昊迪,陈振浩,陈俊扬,周熠,连德富,伍楷舜,林方真.显式知识推理和深度强化学习结合的动态决策.软件学报,2023,34(8):3821-3835

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-09-05
  • 最后修改日期:2021-10-14
  • 录用日期:
  • 在线发布日期: 2022-01-28
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:jos@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号