显式知识推理和深度强化学习结合的动态决策

doi:10.13328/j.cnki.jos.006593

微信服务号

微信订阅号

2025年6月14日 20:01 星期六

首页 > 过刊浏览>2023年第34卷第8期 >3821-3835. DOI:10.13328/j.cnki.jos.006593

PDF HTML阅读 XML下载导出引用引用提醒

显式知识推理和深度强化学习结合的动态决策
DOI:
                        10.13328/j.cnki.jos.006593
                    
CSTR:
                        
                    
作者:
                        张昊迪张昊迪
深圳大学 计算机与软件学院, 广东 深圳 518052
在期刊界中查找
在百度中查找
在本站中查找
陈振浩陈振浩
深圳大学 计算机与软件学院, 广东 深圳 518052
在期刊界中查找
在百度中查找
在本站中查找
陈俊扬陈俊扬
深圳大学 计算机与软件学院, 广东 深圳 518052
在期刊界中查找
在百度中查找
在本站中查找
周熠周熠
上海脑科学与类脑研究中心, 上海 200031
在期刊界中查找
在百度中查找
在本站中查找
连德富连德富
中国科学技术大学 计算机科学与技术学院, 安徽 合肥 230026
在期刊界中查找
在百度中查找
在本站中查找
伍楷舜伍楷舜
深圳大学 计算机与软件学院, 广东 深圳 518052
在期刊界中查找
在百度中查找
在本站中查找
林方真林方真
香港科技大学 计算机科学与工程系, 香港 999077
在期刊界中查找
在百度中查找
在本站中查找

                    
作者单位:
作者简介:张昊迪(1986-),男,博士,助理教授,CCF专业会员,主要研究领域为人工智能,知识表示与推理,深度学习,人工智能在自然语言处理、游戏、医疗等领域的应用;陈振浩(1995-),男,硕士生,主要研究领域为深度学习,知识表示与推理,游戏智能;陈俊扬(1990-),男,博士,助理教授,CCF专业会员,主要研究领域为数据挖掘,人工智能,推荐系统,自然语言处理,图神经网络的理论研究,时序推荐模型;周熠(1981-),男,博士,研究员,博士生导师,主要研究领域为认知人工智能基础,真实动态复杂环境中知识的表示、推理和学习,显式的符号知识与隐式的神经网络深度融合的理论模型;连德富(1985-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为人工智能,数据挖掘,深度学习,推荐系统;伍楷舜(1985-),男,博士,特聘教授,博士生导师,CCF专业会员,主要研究领域为物联网,智能可穿戴计算,无线传感网络,无线干扰管理,无线室内定位,认知无线电,普适计算;林方真(1963-),男,博士,教授,博士生导师,主要研究领域为人工智能,知识表示与推理,逻辑程序语言,机器人,多智能体,博弈论与社会选择理论
通讯作者:伍楷舜,E-mail:wu@szu.edu.cn;林方真,E-mail:flin@cse.ust.hk
中图分类号:TP18
基金项目:国家自然科学基金(61806132,U2001207,61872248);广东省自然科学基金(2017A030312008);深圳市自然科学基金(ZDSYS20190902092853047,R2020A045);珠江人才计划(2019ZT08X603);广东省普通高校创新团队项目(2019KCXTD005)

Dynamic Decision Making Based on Explicit Knowledge Reasoning and Deep Reinforcement Learning

Author:

ZHANG Hao-Di
ZHANG Hao-Di
College of Computer Science and Software Engineering, Shenzhen University, Shenzhen 518052, China
在期刊界中查找
在百度中查找
在本站中查找
CHEN Zhen-Hao
CHEN Zhen-Hao
College of Computer Science and Software Engineering, Shenzhen University, Shenzhen 518052, China
在期刊界中查找
在百度中查找
在本站中查找
CHEN Jun-Yang
CHEN Jun-Yang
College of Computer Science and Software Engineering, Shenzhen University, Shenzhen 518052, China
在期刊界中查找
在百度中查找
在本站中查找
ZHOU Yi
ZHOU Yi
Shanghai Center for Brain Science and Brain-inspired Technology, Shanghai 200031, China
在期刊界中查找
在百度中查找
在本站中查找
LIAN De-Fu
LIAN De-Fu
School of Computer Science and Technology, University of Science and Technology of China, Hefei 230026, China
在期刊界中查找
在百度中查找
在本站中查找
WU Kai-Shun
WU Kai-Shun
College of Computer Science and Software Engineering, Shenzhen University, Shenzhen 518052, China
在期刊界中查找
在百度中查找
在本站中查找
LIN Fang-Zhen
LIN Fang-Zhen
Department of Computer Science and Engineering, Hong Kong University of Science and Technology, Hong Kong 999077, China
在期刊界中查找
在百度中查找
在本站中查找

Affiliation:

Fund Project:

摘要

图/表

访问统计

参考文献

相似文献

引证文献

资源附件

文章评论

摘要:

近年来, 深度强化学习在序列决策领域被广泛应用并且效果良好, 尤其在具有高维输入、大规模状态空间的应用场景中优势明显. 然而, 深度强化学习相关方法也存在一些局限, 如缺乏可解释性、初期训练低效与冷启动等问题. 针对这些问题, 提出了一种基于显式知识推理和深度强化学习的动态决策框架, 将显式的知识推理与深度强化学习结合. 该框架通过显式知识表示将人类先验知识嵌入智能体训练中, 让智能体在强化学习中获得知识推理结果的干预, 以提高智能体的训练效率, 并增加模型的可解释性. 将显式知识分为两种, 即启发式加速知识与规避式安全知识. 前者在训练初期干预智能体决策, 加快训练速度; 而后者将避免智能体作出灾难性决策, 使其训练过程更为稳定. 实验表明, 该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率, 并增加了模型的可解释性.

关键词:知识表示与推理;可解释性;深度强化学习;动态序列决策

Abstract:

In recent years, deep reinforcement learning has been widely used in sequential decisions with positive effects, and it has outstanding advantages in application scenarios with high-dimensional input and large state spaces. However, deep reinforcement learning faces some limitations such as a lack of interpretability, inefficient initial training, and a cold start. To address these issues, this study proposes a dynamic decision framework combing explicit knowledge reasoning with deep reinforcement learning. The framework successfully embeds the priori knowledge in intelligent agent training via explicit knowledge representation and gets the agent intervened by the knowledge reasoning results during the reinforcement learning, so as to improve the training efficiency and the model’s interpretability. The explicit knowledge in this study is categorized into two kinds, namely, heuristic acceleration knowledge and evasive safety knowledge. The heuristic acceleration knowledge intervenes in the decision of the agent in the initial training to speed up the training, while the evasive safety knowledge keeps the agent from making catastrophic decisions to keep the training process stable. The experimental results show that the proposed framework significantly improves the training efficiency and the model’s interpretability under different application scenarios and reinforcement learning algorithms.

Key words:knowledge representation and reasoning;interpretability;deep reinforcement learning (DRL);sequential decision making

引用本文

张昊迪,陈振浩,陈俊扬,周熠,连德富,伍楷舜,林方真.显式知识推理和深度强化学习结合的动态决策.软件学报,2023,34(8):3821-3835

复制

文章指标

点击次数:
下载次数:
HTML阅读次数:
引用次数:

历史

收稿日期:2021-09-05
最后修改日期:2021-10-14
录用日期:
在线发布日期: 2022-01-28
出版日期: 2023-08-06

微信服务号

微信订阅号

引用本文

相关视频

分享

文章指标

历史

文章二维码

微信服务号

微信订阅号

引用本文

相关视频

分享

微信扫一扫：分享

文章指标

历史

文章二维码