软件学报【领域热点】强化学习（2025年4月3日更新）

微信服务号

微信订阅号

2025年4月22日 19:00 星期二

扩散模型期望最大化的离线强化学习方法	刘全,颜洁,乌兰	在线优先出版
因果时空语义驱动的深度强化学习抽象建模方法	田丽丽,杜德慧,聂基辉,陈逸康,李荥达	2025,36(8)
基于分组对比学习的序贯感知技能发现	杨尚东,余淼盈,陈兴国,陈蕾	2025,36(5):2079-2093
面向参数化动作空间的多智能体中心化策略梯度分解及其应用	田树聪,谢愈,张远龙,周正春,高阳	2025,36(2):590-607
混合博弈问题的求解与应用综述	董绍康,李超,杨光,葛振兴,曹宏业,陈武兵,杨尚东,陈兴国,李文斌,高阳	2025,36(1):107-151
面向漏洞检测模型的强化学习式对抗攻击方法	陈思然,吴敬征,凌祥,罗天悦,刘镓煜,武延军	2024,35(8):3647-3667
基于多模态表征的移动应用GUI模糊测试框架	张少坤,李元春,雷瀚文,蒋鹏,李锭,郭耀,陈向群	2024,35(7):3162-3179
自动化渗透测试技术研究综述	陈可,鲁辉,方滨兴,孙彦斌,苏申,田志宏	2024,35(5):2268-2288
元强化学习研究综述	陈奕宇,霍静,丁天雨,高阳	2024,35(4):1618-1650
基于深度强化学习的WRSN动态时空充电调度	王艺均,冯勇,刘明,刘念伯	2024,35(3):1485-1501
合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法	张明悦,金芝,刘坤	2024,35(2):739-757
面向机器人系统的虚实迁移强化学习综述	林谦,余超,伍夏威,董银昭,徐昕,张强,郭宪	2024,35(2):711-738
基于学习-推理的约束求解方法研究进展	邹悦,赖家洋,张永刚	2024,35(1):220-235
边缘计算中协作计算卸载与动态任务调度	张斐斐,葛季栋,李忠金,黄子峰,张胜,陈兴国,骆斌	2023,34(12):5737-5756
融合引力搜索的双延迟深度确定策略梯度方法	徐平安,刘全,郝少璞,张立华	2023,34(11):5191-5204
基于演化深度强化学习的符号网络影响最大化研究	马里佳,洪华平,林秋镇,李坚强,公茂果	2023,34(11):5084-5112
逆向强化学习研究综述	张立华,刘全,黄志刚,朱斐	2023,34(10):4772-4803
面向知识图谱约束问答的强化学习推理技术	毕鑫,聂豪杰,赵相国,袁野,王国仁	2023,34(10):4565-4583
显式知识推理和深度强化学习结合的动态决策	张昊迪,陈振浩,陈俊扬,周熠,连德富,伍楷舜,林方真	2023,34(8):3821-3835
基于模型的强化学习中可学习的样本加权机制	黄文振,尹奇跃,张俊格,黄凯奇	2023,34(6):2765-2775
一种基于强化学习的持续集成环境中测试用例排序技术	赵逸凡,郝丹	2023,34(6):2708-2726
强化学习可解释性基础问题探索和方法综述	刘潇,刘书洋,庄韫恺,高阳	2023,34(5):2300-2316
结构交互驱动的机器人深度强化学习控制方法	余超,董银昭,郭宪,冯旸赫,卓汉逵,张强	2023,34(4):1749-1764
深度分层强化学习研究与发展	黄志刚,刘全,张立华,曹家庆,朱斐	2023,34(2):733-760
文本风格迁移研究综述	陈可佳,费子阳,陈景强,杨子农	2022,33(12):4668-4687
基于样本效率优化的深度强化学习方法综述	张峻伟,吕帅,张正昊,于佳玉,龚晓宇	2022,33(11):4217-4238
基于受限MDP的无模型安全强化学习方法	朱斐,葛洋洋,凌兴宏,刘全	2022,33(8):3086-3102
安全强化学习算法及其在CPS智能控制中的应用	赵恒军,李权忠,曾霞,刘志明	2022,33(7):2538-2561
面向类集成测试序列生成的强化学习研究	丁艳茹,张艳梅,姜淑娟,袁冠,王荣存,钱俊彦	2022,33(5):1674-1698
基于预测编码的样本自适应行动策略规划	梁星星,马扬,冯旸赫,张驭龙,张龙飞,廖世江,刘忠	2022,33(4):1477-1500
AlphaQO:鲁棒的学习型查询优化器	余翔,柴成亮,张辛宁,汤南,孙佶,李国良	2022,33(3):814-831
求解二维装箱问题的强化学习启发式算法	阳名钢,陈梦烦,杨双远,张德富	2021,32(12):3684-3697
一种基于广义异步值迭代的规划网络模型	陈子璇,章宗长,潘致远,张琳婧	2021,32(11):3496-3511
面向优先车辆感知的交通灯优化控制方法	邵明莉,曹鹗,胡铭,章玥,陈闻杰,陈铭松	2021,32(8):2425-2438
基于强化学习的温度感知多核任务调度	杨世贵,王媛媛,刘韦辰,姜徐,赵明雄,方卉,杨宇,刘迪	2021,32(8):2408-2424
大粒度Pull Request描述自动生成	邝砾,施如意,赵雷浩,张欢,高洪皓	2021,32(6):1597-1611
基于自回归预测模型的深度注意力强化学习方法	梁星星,冯旸赫,黄金才,王琦,马扬,刘忠	2020,31(4):948-966
深度学习在软件定义网络研究中的应用综述	杨洋,吕光宏,赵会,李鹏飞	2020,31(7):2184-2204
基于强化学习的金融交易系统研究与发展	梁天新,杨小平,王良,韩镇远	2019,30(3):845-864
面向持续集成测试优化的强化学习奖励机制	何柳柳,杨羊,李征,赵瑞莲	2019,30(5):1438-1449
基于创意序列学习的艺术风格学习与绘制系统	谢宁,赵婷婷,杨阳,魏琴,HengTao SHEN	2018,29(4):1071-1084
一种基于自生成样本学习的奖赏塑形方法	钱煜,俞扬,周志华	2013,24(11):2667-2675
一种高斯过程的带参近似策略迭代算法	傅启明,刘全,伏玉琛,周谊成,于俊	2013,24(11):2676-2686
基于后悔值的多Agent冲突博弈强化学习模型	肖正,张世永	2008,19(11):2957-2967
无线多媒体通信网适应带宽配置在线优化算法	江琦,奚宏生,殷保群	2007,18(6):1491-1500
基于生态竞争模型的遗传强化学习	曹先彬,高隽,王煦法	1999,10(6):658-662