扩散模型期望最大化的离线强化学习方法 |
刘全,颜洁,乌兰 |
在线优先出版 |
因果时空语义驱动的深度强化学习抽象建模方法 |
田丽丽,杜德慧,聂基辉,陈逸康,李荥达 |
2025,36(8) |
基于分组对比学习的序贯感知技能发现 |
杨尚东,余淼盈,陈兴国,陈蕾 |
2025,36(5):2079-2093 |
面向参数化动作空间的多智能体中心化策略梯度分解及其应用 |
田树聪,谢愈,张远龙,周正春,高阳 |
2025,36(2):590-607 |
混合博弈问题的求解与应用综述 |
董绍康,李超,杨光,葛振兴,曹宏业,陈武兵,杨尚东,陈兴国,李文斌,高阳 |
2025,36(1):107-151 |
面向漏洞检测模型的强化学习式对抗攻击方法 |
陈思然,吴敬征,凌祥,罗天悦,刘镓煜,武延军 |
2024,35(8):3647-3667 |
基于多模态表征的移动应用GUI模糊测试框架 |
张少坤,李元春,雷瀚文,蒋鹏,李锭,郭耀,陈向群 |
2024,35(7):3162-3179 |
自动化渗透测试技术研究综述 |
陈可,鲁辉,方滨兴,孙彦斌,苏申,田志宏 |
2024,35(5):2268-2288 |
元强化学习研究综述 |
陈奕宇,霍静,丁天雨,高阳 |
2024,35(4):1618-1650 |
基于深度强化学习的WRSN动态时空充电调度 |
王艺均,冯勇,刘明,刘念伯 |
2024,35(3):1485-1501 |
合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法 |
张明悦,金芝,刘坤 |
2024,35(2):739-757 |
面向机器人系统的虚实迁移强化学习综述 |
林谦,余超,伍夏威,董银昭,徐昕,张强,郭宪 |
2024,35(2):711-738 |
基于学习-推理的约束求解方法研究进展 |
邹悦,赖家洋,张永刚 |
2024,35(1):220-235 |
边缘计算中协作计算卸载与动态任务调度 |
张斐斐,葛季栋,李忠金,黄子峰,张胜,陈兴国,骆斌 |
2023,34(12):5737-5756 |
融合引力搜索的双延迟深度确定策略梯度方法 |
徐平安,刘全,郝少璞,张立华 |
2023,34(11):5191-5204 |
基于演化深度强化学习的符号网络影响最大化研究 |
马里佳,洪华平,林秋镇,李坚强,公茂果 |
2023,34(11):5084-5112 |
逆向强化学习研究综述 |
张立华,刘全,黄志刚,朱斐 |
2023,34(10):4772-4803 |
面向知识图谱约束问答的强化学习推理技术 |
毕鑫,聂豪杰,赵相国,袁野,王国仁 |
2023,34(10):4565-4583 |
显式知识推理和深度强化学习结合的动态决策 |
张昊迪,陈振浩,陈俊扬,周熠,连德富,伍楷舜,林方真 |
2023,34(8):3821-3835 |
基于模型的强化学习中可学习的样本加权机制 |
黄文振,尹奇跃,张俊格,黄凯奇 |
2023,34(6):2765-2775 |
一种基于强化学习的持续集成环境中测试用例排序技术 |
赵逸凡,郝丹 |
2023,34(6):2708-2726 |
强化学习可解释性基础问题探索和方法综述 |
刘潇,刘书洋,庄韫恺,高阳 |
2023,34(5):2300-2316 |
结构交互驱动的机器人深度强化学习控制方法 |
余超,董银昭,郭宪,冯旸赫,卓汉逵,张强 |
2023,34(4):1749-1764 |
深度分层强化学习研究与发展 |
黄志刚,刘全,张立华,曹家庆,朱斐 |
2023,34(2):733-760 |
文本风格迁移研究综述 |
陈可佳,费子阳,陈景强,杨子农 |
2022,33(12):4668-4687 |
基于样本效率优化的深度强化学习方法综述 |
张峻伟,吕帅,张正昊,于佳玉,龚晓宇 |
2022,33(11):4217-4238 |
基于受限MDP的无模型安全强化学习方法 |
朱斐,葛洋洋,凌兴宏,刘全 |
2022,33(8):3086-3102 |
安全强化学习算法及其在CPS智能控制中的应用 |
赵恒军,李权忠,曾霞,刘志明 |
2022,33(7):2538-2561 |
面向类集成测试序列生成的强化学习研究 |
丁艳茹,张艳梅,姜淑娟,袁冠,王荣存,钱俊彦 |
2022,33(5):1674-1698 |
基于预测编码的样本自适应行动策略规划 |
梁星星,马扬,冯旸赫,张驭龙,张龙飞,廖世江,刘忠 |
2022,33(4):1477-1500 |
AlphaQO:鲁棒的学习型查询优化器 |
余翔,柴成亮,张辛宁,汤南,孙佶,李国良 |
2022,33(3):814-831 |
求解二维装箱问题的强化学习启发式算法 |
阳名钢,陈梦烦,杨双远,张德富 |
2021,32(12):3684-3697 |
一种基于广义异步值迭代的规划网络模型 |
陈子璇,章宗长,潘致远,张琳婧 |
2021,32(11):3496-3511 |
面向优先车辆感知的交通灯优化控制方法 |
邵明莉,曹鹗,胡铭,章玥,陈闻杰,陈铭松 |
2021,32(8):2425-2438 |
基于强化学习的温度感知多核任务调度 |
杨世贵,王媛媛,刘韦辰,姜徐,赵明雄,方卉,杨宇,刘迪 |
2021,32(8):2408-2424 |
大粒度Pull Request描述自动生成 |
邝砾,施如意,赵雷浩,张欢,高洪皓 |
2021,32(6):1597-1611 |
基于自回归预测模型的深度注意力强化学习方法 |
梁星星,冯旸赫,黄金才,王琦,马扬,刘忠 |
2020,31(4):948-966 |
深度学习在软件定义网络研究中的应用综述 |
杨洋,吕光宏,赵会,李鹏飞 |
2020,31(7):2184-2204 |
基于强化学习的金融交易系统研究与发展 |
梁天新,杨小平,王良,韩镇远 |
2019,30(3):845-864 |
面向持续集成测试优化的强化学习奖励机制 |
何柳柳,杨羊,李征,赵瑞莲 |
2019,30(5):1438-1449 |
基于创意序列学习的艺术风格学习与绘制系统 |
谢宁,赵婷婷,杨阳,魏琴,HengTao SHEN |
2018,29(4):1071-1084 |
一种基于自生成样本学习的奖赏塑形方法 |
钱煜,俞扬,周志华 |
2013,24(11):2667-2675 |
一种高斯过程的带参近似策略迭代算法 |
傅启明,刘全,伏玉琛,周谊成,于俊 |
2013,24(11):2676-2686 |
基于后悔值的多Agent冲突博弈强化学习模型 |
肖正,张世永 |
2008,19(11):2957-2967 |
无线多媒体通信网适应带宽配置在线优化算法 |
江琦,奚宏生,殷保群 |
2007,18(6):1491-1500 |
基于生态竞争模型的遗传强化学习 |
曹先彬,高隽,王煦法 |
1999,10(6):658-662 |